論文の概要: Prediction with Corrupted Expert Advice
- arxiv url: http://arxiv.org/abs/2002.10286v2
- Date: Tue, 20 Oct 2020 20:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:12:27.661054
- Title: Prediction with Corrupted Expert Advice
- Title(参考訳): 専門家アドバイザの故障予測
- Authors: Idan Amir, Idan Attias, Tomer Koren, Roi Livni, Yishay Mansour
- Abstract要約: ステップサイズを減らした古典的乗法重みアルゴリズムの変種が、良質な環境において絶え間なく後悔することを証明する。
我々の結果は、しばしば同等のFollow the Regularized Leader(FTRL)とOnline Mirror Descent(OMD)フレームワークの驚くべき相違を明らかにします。
- 参考スコア(独自算出の注目度): 67.67399390910381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit the fundamental problem of prediction with expert advice, in a
setting where the environment is benign and generates losses stochastically,
but the feedback observed by the learner is subject to a moderate adversarial
corruption. We prove that a variant of the classical Multiplicative Weights
algorithm with decreasing step sizes achieves constant regret in this setting
and performs optimally in a wide range of environments, regardless of the
magnitude of the injected corruption. Our results reveal a surprising disparity
between the often comparable Follow the Regularized Leader (FTRL) and Online
Mirror Descent (OMD) frameworks: we show that for experts in the corrupted
stochastic regime, the regret performance of OMD is in fact strictly inferior
to that of FTRL.
- Abstract(参考訳): 我々は, 環境が良性であり, 確率的に損失を発生させる環境において, 予測の基本的な問題を専門家のアドバイスで再検討するが, 学習者が観察するフィードバックは, 適度な敵の腐敗の対象となる。
ステップサイズを小さくした古典的乗法重みアルゴリズムの変種は、この設定において絶え間なく後悔し、注入された汚職の大きさに関わらず、広範囲の環境において最適に動作することを示す。
今回の結果から,正規化リーダ (ftrl) とオンラインミラー降ろし (omd) のフレームワークによく匹敵する違いが明らかとなった。
関連論文リスト
- The Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本稿では,不完全な情報形式ゲームにおいて,摂動がFTRL(Follow-the-Regularized-Leader)アルゴリズムをどのように改善するかを検討する。
期待されるペイオフの摂動は、FTRL力学が近似平衡に達することを保証している。
最後に、FTRLは非サンプリングFTRLよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z) - Beyond Non-Degeneracy: Revisiting Certainty Equivalent Heuristic for Online Linear Programming [18.371947752008744]
この結果から,不確実性等価性は分布の微妙な仮定の下で一様に近い最適後悔を達成できることが示唆された。
以上の結果から,CE は従来の信念とは対照的に,幅広い問題事例に対する退化の呪いを効果的に打ち負かしていると考えられる。
これらの手法は、より広範なオンライン意思決定コンテキストにおける潜在的な応用を見出すことができる。
論文 参考訳(メタデータ) (2025-01-03T09:21:27Z) - On Calibration in Multi-Distribution Learning [6.184670046923719]
マルチディストリビューション学習(MDL)の校正特性について検討する。
まず、MDLのベイズ最適規則を導出し、関連する損失関数の一般化エントロピーを最大化することを示した。
解析の結果,本手法は最小の最悪の損失を許容するが,複数の分布に一様でないキャリブレーション誤差を生じさせる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-18T18:41:40Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Your Policy Regularizer is Secretly an Adversary [13.625408555732752]
報奨関数の最悪の摂動に対して,頑健性がヘッジングによって生じることを示す。
我々は、KLとα偏差正規化の下で、この頑健な対向報酬摂動を特徴付ける。
本稿では、最悪の報酬摂動に関する詳細な議論と、この堅牢性を示す直感的な経験例を紹介する。
論文 参考訳(メタデータ) (2022-03-23T17:54:20Z) - Contrastive Learning for Debiased Candidate Generation in Large-Scale
Recommender Systems [84.3996727203154]
コントラスト損失の一般的な選択は、逆確率重み付けによる露光バイアスの低減と等価であることを示す。
我々はCLRecをさらに改良し、マルチCLRecを提案する。
提案手法は,少なくとも4ヶ月のオンラインA/Bテストとオフライン分析が実施され,大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-20T08:15:23Z) - Understanding and Mitigating the Tradeoff Between Robustness and
Accuracy [88.51943635427709]
逆行訓練は、堅牢なエラーを改善するために、摂動でトレーニングセットを増強する。
拡張摂動が最適線形予測器からノイズのない観測を行う場合であっても,標準誤差は増大する可能性がある。
論文 参考訳(メタデータ) (2020-02-25T08:03:01Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。