論文の概要: Prediction with Corrupted Expert Advice
- arxiv url: http://arxiv.org/abs/2002.10286v2
- Date: Tue, 20 Oct 2020 20:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:12:27.661054
- Title: Prediction with Corrupted Expert Advice
- Title(参考訳): 専門家アドバイザの故障予測
- Authors: Idan Amir, Idan Attias, Tomer Koren, Roi Livni, Yishay Mansour
- Abstract要約: ステップサイズを減らした古典的乗法重みアルゴリズムの変種が、良質な環境において絶え間なく後悔することを証明する。
我々の結果は、しばしば同等のFollow the Regularized Leader(FTRL)とOnline Mirror Descent(OMD)フレームワークの驚くべき相違を明らかにします。
- 参考スコア(独自算出の注目度): 67.67399390910381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit the fundamental problem of prediction with expert advice, in a
setting where the environment is benign and generates losses stochastically,
but the feedback observed by the learner is subject to a moderate adversarial
corruption. We prove that a variant of the classical Multiplicative Weights
algorithm with decreasing step sizes achieves constant regret in this setting
and performs optimally in a wide range of environments, regardless of the
magnitude of the injected corruption. Our results reveal a surprising disparity
between the often comparable Follow the Regularized Leader (FTRL) and Online
Mirror Descent (OMD) frameworks: we show that for experts in the corrupted
stochastic regime, the regret performance of OMD is in fact strictly inferior
to that of FTRL.
- Abstract(参考訳): 我々は, 環境が良性であり, 確率的に損失を発生させる環境において, 予測の基本的な問題を専門家のアドバイスで再検討するが, 学習者が観察するフィードバックは, 適度な敵の腐敗の対象となる。
ステップサイズを小さくした古典的乗法重みアルゴリズムの変種は、この設定において絶え間なく後悔し、注入された汚職の大きさに関わらず、広範囲の環境において最適に動作することを示す。
今回の結果から,正規化リーダ (ftrl) とオンラインミラー降ろし (omd) のフレームワークによく匹敵する違いが明らかとなった。
関連論文リスト
- Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning [0.19418036471925312]
深部強化学習における一般化されたガウス誤差モデリングのための新しい枠組みを提案する。
我々のフレームワークは、高次モーメント、特にカルトーシスを付加することにより、エラー分散モデリングの柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-08-05T08:12:25Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Robust Generalization against Photon-Limited Corruptions via Worst-Case
Sharpness Minimization [89.92932924515324]
ロバスト一般化は、トレーニングセットで稀であり、厳しいノイズを含む最も困難なデータ分散に取り組むことを目的としている。
分散ロバスト最適化(DRO)のような一般的なソリューションは、低いトレーニングエラーを保証するための最悪の経験的リスクに焦点を当てている。
本稿では,学習パラメータの近傍における損失変化を計測し,最悪ケース分布の鋭さをペナルティ化し,シャープDROを提案する。
シャープDROは、汚職に対する強力な一般化能力を示し、高い性能向上を有するよく知られたベースライン法を超えることを示す。
論文 参考訳(メタデータ) (2023-03-23T07:58:48Z) - Your Policy Regularizer is Secretly an Adversary [13.625408555732752]
報奨関数の最悪の摂動に対して,頑健性がヘッジングによって生じることを示す。
我々は、KLとα偏差正規化の下で、この頑健な対向報酬摂動を特徴付ける。
本稿では、最悪の報酬摂動に関する詳細な議論と、この堅牢性を示す直感的な経験例を紹介する。
論文 参考訳(メタデータ) (2022-03-23T17:54:20Z) - Contrastive Learning for Debiased Candidate Generation in Large-Scale
Recommender Systems [84.3996727203154]
コントラスト損失の一般的な選択は、逆確率重み付けによる露光バイアスの低減と等価であることを示す。
我々はCLRecをさらに改良し、マルチCLRecを提案する。
提案手法は,少なくとも4ヶ月のオンラインA/Bテストとオフライン分析が実施され,大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-20T08:15:23Z) - Understanding and Mitigating the Tradeoff Between Robustness and
Accuracy [88.51943635427709]
逆行訓練は、堅牢なエラーを改善するために、摂動でトレーニングセットを増強する。
拡張摂動が最適線形予測器からノイズのない観測を行う場合であっても,標準誤差は増大する可能性がある。
論文 参考訳(メタデータ) (2020-02-25T08:03:01Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。