論文の概要: Robust Q-Learning under Corrupted Rewards
- arxiv url: http://arxiv.org/abs/2409.03237v1
- Date: Thu, 5 Sep 2024 04:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 21:57:04.947038
- Title: Robust Q-Learning under Corrupted Rewards
- Title(参考訳): 倒産後のロバストQ-Learning
- Authors: Sreejeet Maity, Aritra Mitra,
- Abstract要約: 本稿では,Q-Learningアルゴリズムの強汚染攻撃モデルに対する堅牢性について検討する。
本研究では,実演的ベルマン演算子を構築するために,履歴報酬データを用いた新しい頑健な同期Q-ラーニングアルゴリズムを開発した。
我々の結果は、真の報酬分布が無限に支持されたとしても、有界な第2モーメントを許容するならば、維持され続ける。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a surge of interest in analyzing the non-asymptotic behavior of model-free reinforcement learning algorithms. However, the performance of such algorithms in non-ideal environments, such as in the presence of corrupted rewards, is poorly understood. Motivated by this gap, we investigate the robustness of the celebrated Q-learning algorithm to a strong-contamination attack model, where an adversary can arbitrarily perturb a small fraction of the observed rewards. We start by proving that such an attack can cause the vanilla Q-learning algorithm to incur arbitrarily large errors. We then develop a novel robust synchronous Q-learning algorithm that uses historical reward data to construct robust empirical Bellman operators at each time step. Finally, we prove a finite-time convergence rate for our algorithm that matches known state-of-the-art bounds (in the absence of attacks) up to a small inevitable $O(\varepsilon)$ error term that scales with the adversarial corruption fraction $\varepsilon$. Notably, our results continue to hold even when the true reward distributions have infinite support, provided they admit bounded second moments.
- Abstract(参考訳): 近年,モデルフリー強化学習アルゴリズムの非漸近的挙動解析への関心が高まっている。
しかし,非理想的環境,例えば腐敗した報酬の存在などにおいて,そのようなアルゴリズムの性能はよく理解されていない。
そこで,このギャップに乗じて,有望なQ-ラーニングアルゴリズムの強汚染攻撃モデルに対するロバスト性を検証し,敵が観測された報酬のごく一部を任意に摂動させることができることを示した。
このような攻撃によって、バニラQ学習アルゴリズムが任意に大きなエラーを発生させる可能性があることを証明することから始めます。
そこで我々は,歴史報酬データを用いて,各ステップで頑健な経験的ベルマン演算子を構築する,新しい頑健な同期Q-ラーニングアルゴリズムを開発した。
最後に、既知の最先端境界(攻撃がない場合)を、敵の汚職率$\varepsilon$とスケールする小さな避けられない$O(\varepsilon)$エラー項に一致させるアルゴリズムに対して有限時間収束率を証明する。
特に、真の報奨分布が無限に支持されたとしても、有界な第二モーメントを許容するならば、我々の結果は引き続き持続する。
関連論文リスト
- Agnostic Multi-Robust Learning Using ERM [19.313739782029185]
頑健な学習における根本的な問題は非対称性である: 学習者は指数関数的に多くの摂動の全てを正しく分類する必要がある。
これとは対照的に、攻撃者は1つの摂動を成功させる必要がある。
本稿では,新しいマルチグループ設定を導入し,新しいマルチロバスト学習問題を提案する。
論文 参考訳(メタデータ) (2023-03-15T21:30:14Z) - Stabilizing Off-Policy Deep Reinforcement Learning from Pixels [9.998078491879145]
ピクセル観測から学んだオフ政治強化は、非常に不安定である。
これらの不安定性は,畳み込みエンコーダと低次報酬を用いた時間差学習によって生じることを示す。
本稿では, エンコーダの勾配に適応的な正規化を提供する手法であるA-LIXを提案する。
論文 参考訳(メタデータ) (2022-07-03T08:52:40Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Outlier-Robust Learning of Ising Models Under Dobrushin's Condition [57.89518300699042]
本研究では, サンプルの一定割合が逆向きに破壊されるような外乱条件下で, ドブルシンの条件を満たすIsingモデルの学習問題について検討する。
我々の主な成果は、ほぼ最適誤差保証を伴うこの問題に対して、計算効率のよい最初の頑健な学習アルゴリズムを提供することである。
論文 参考訳(メタデータ) (2021-02-03T18:00:57Z) - Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。
機械は独立して勾配を計算し 協力することができます
私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。
それは非常に実用的です:それはないときすべての前の方法の性能を改善します。
セッティングマシンがあります。
論文 参考訳(メタデータ) (2020-12-28T17:19:32Z) - Sample-Optimal and Efficient Learning of Tree Ising models [24.201827888085944]
最適な$O(n ln n/epsilon2)$サンプルから,$n$-variable tree-structured Isingモデルが全変動距離$epsilon$の範囲内で計算効率良く学習可能であることを示す。
我々の保証は、Chow-Liuアルゴリズムの既知の結果に従わない。
論文 参考訳(メタデータ) (2020-10-28T10:17:48Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical
Comparison [17.692408242465763]
バッチ強化学習において、$Qstar$を近似する2つのアルゴリズムの性能保証を証明する。
アルゴリズムの1つは、ベルマン誤差推定における悪名高い「二重サンプリング」困難を克服するために、新しく明確な重要度重み付け補正を使用する。
論文 参考訳(メタデータ) (2020-03-09T05:12:39Z) - Robust Stochastic Bandit Algorithms under Probabilistic Unbounded
Adversarial Attack [41.060507338755784]
本稿では,各ラウンドで敵が一定の確率で攻撃する攻撃モデルについて検討する。
そこで我々は, 中央値および探索支援UPBアルゴリズム(med-E-UCB)と中央値の$epsilon$-greedyアルゴリズム(med-$epsilon$-greedy)を提案する。
どちらのアルゴリズムも上記の攻撃モデルに対して確実に堅牢である。より具体的には、どちらのアルゴリズムも$mathcalO(log T)$ pseudo-regret (i.e.)を達成することを示す。
論文 参考訳(メタデータ) (2020-02-17T19:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。