論文の概要: Always Valid Risk Monitoring for Online Matrix Completion
- arxiv url: http://arxiv.org/abs/2211.10363v1
- Date: Fri, 18 Nov 2022 17:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 14:00:17.405147
- Title: Always Valid Risk Monitoring for Online Matrix Completion
- Title(参考訳): オンラインマトリックスコンプリートにおける常時リスクモニタリング
- Authors: Chi-Hua Wang, Wenjie Li
- Abstract要約: オンライン統計学習のパフォーマンス指標として、常に有意な濃度の不等式がますます使われている。
この研究は、オンライン行列完備問題に対して、常に有効なリスク境界プロセスを確立し、考案する。
- 参考スコア(独自算出の注目度): 9.069953334839019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Always-valid concentration inequalities are increasingly used as performance
measures for online statistical learning, notably in the learning of generative
models and supervised learning. Such inequality advances the online learning
algorithms design by allowing random, adaptively chosen sample sizes instead of
a fixed pre-specified size in offline statistical learning. However,
establishing such an always-valid type result for the task of matrix completion
is challenging and far from understood in the literature. Due to the importance
of such type of result, this work establishes and devises the always-valid risk
bound process for online matrix completion problems. Such theoretical advances
are made possible by a novel combination of non-asymptotic martingale
concentration and regularized low-rank matrix regression. Our result enables a
more sample-efficient online algorithm design and serves as a foundation to
evaluate online experiment policies on the task of online matrix completion.
- Abstract(参考訳): 常に有価な濃度の不等式は、オンライン統計学習、特に生成モデルの学習や教師付き学習におけるパフォーマンス指標としてますます使われている。
このような不等式は、オフライン統計学習において、あらかじめ定められたサイズではなくランダムに選択されたサンプルサイズを許可することで、オンライン学習アルゴリズムの設計を進歩させる。
しかし, 行列完成の課題に対して, 常に有意な結果を得ることは困難であり, 文献ではあまり理解されていない。
このような結果の重要性から、オンライン行列補完問題に対して常に有効なリスク境界プロセスを確立し、考案する。
このような理論的な進歩は、非漸近性マーチンゲール濃度と正規化低ランク行列回帰の新たな組み合わせによって可能となる。
その結果、よりサンプル効率の良いオンラインアルゴリズム設計が可能となり、オンラインマトリックス補完タスクに関するオンライン実験ポリシーを評価する基盤となる。
関連論文リスト
- Is Behavior Cloning All You Need? Understanding Horizon in Imitation Learning [26.53136644321385]
シミュレーション学習(Imitation Learning, IL)は、実演から学ぶことによって、連続的な意思決定タスクにおいて専門家の行動を模倣することを目的としている。
オンライン行動クローニング(英語版) (BC) は、問題の地平線に好ましくない二次的依存を伴うサンプルの複雑さを引き起こすと考えられている。
累積ペイオフの範囲が制御されるたびに、オフラインILにおいて水平非依存のサンプル複雑性を実現することができることを示す。
論文 参考訳(メタデータ) (2024-07-20T23:31:56Z) - Asymptotically Efficient Online Learning for Censored Regression Models
Under Non-I.I.D Data [2.2446129622980227]
検閲された回帰モデルに対して,効率的なオンライン学習問題について検討した。
文献における既存の関連アルゴリズムよりも提案したオンラインアルゴリズムの方が優れていることを示す数値的な例を示す。
論文 参考訳(メタデータ) (2023-09-18T03:28:48Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Online Statistical Inference for Matrix Contextual Bandit [3.465827582464433]
文脈的帯域幅は、文脈情報と歴史的フィードバックデータに基づく逐次的意思決定に広く利用されている。
我々は、両方のバイアス源を同時に扱うために、新しいオンライン二重バイアス推論手法を導入する。
提案手法は, 新たに開発された低ランク勾配勾配推定器とその非漸近収束結果に基づく。
論文 参考訳(メタデータ) (2022-12-21T22:03:06Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Task-agnostic Continual Learning with Hybrid Probabilistic Models [75.01205414507243]
分類のための連続学習のためのハイブリッド生成識別手法であるHCLを提案する。
フローは、データの配布を学習し、分類を行い、タスクの変更を特定し、忘れることを避けるために使用される。
本研究では,スプリット-MNIST,スプリット-CIFAR,SVHN-MNISTなどの連続学習ベンチマークにおいて,HCLの強い性能を示す。
論文 参考訳(メタデータ) (2021-06-24T05:19:26Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Online Passive-Aggressive Total-Error-Rate Minimization [1.370633147306388]
オンライン・パッシブ・アグレッシブ・ラーニング(PA)と総エラーレート最小化(TER)を二項分類に活用する新しいオンライン・ラーニング・アルゴリズムを提案する。
実験結果から,提案したPATERアルゴリズムは,実世界のデータセットにおける既存の最先端オンライン学習アルゴリズムよりも,効率と効率の面で優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-02-05T13:10:01Z) - A Modern Introduction to Online Learning [15.974402990630402]
オンライン学習(オンライン学習)とは、最悪の場合における後悔の最小化の枠組みを指す。
凸損失を伴うオンライン学習のための一階と二階のアルゴリズムを提示する。
論文 参考訳(メタデータ) (2019-12-31T08:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。