論文の概要: Corruption-Tolerant Asynchronous Q-Learning with Near-Optimal Rates
- arxiv url: http://arxiv.org/abs/2509.08933v1
- Date: Wed, 10 Sep 2025 18:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.108937
- Title: Corruption-Tolerant Asynchronous Q-Learning with Near-Optimal Rates
- Title(参考訳): ほぼ最適速度での耐故障性非同期Q-Learning
- Authors: Sreejeet Maity, Aritra Mitra,
- Abstract要約: そこで本研究では,Q-ラーニングアルゴリズムの頑健な新しい変種を提案する。
我々のコントリビューションは、非同期Q-ラーニングのための最初の有限時間ロバスト性保証を提供し、ロバストなRLにおいて大きなギャップを埋めています。
- 参考スコア(独自算出の注目度): 2.3096751699592137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of learning the optimal policy in a discounted, infinite-horizon reinforcement learning (RL) setting where the reward signal is subject to adversarial corruption. Such corruption, which may arise from extreme noise, sensor faults, or malicious attacks, can severely degrade the performance of classical algorithms such as Q-learning. To address this challenge, we propose a new provably robust variant of the Q-learning algorithm that operates effectively even when a fraction of the observed rewards are arbitrarily perturbed by an adversary. Under the asynchronous sampling model with time-correlated data, we establish that despite adversarial corruption, the finite-time convergence rate of our algorithm matches that of existing results for the non-adversarial case, up to an additive term proportional to the fraction of corrupted samples. Moreover, we derive an information-theoretic lower bound revealing that the additive corruption term in our upper bounds is unavoidable. Next, we propose a variant of our algorithm that requires no prior knowledge of the statistics of the true reward distributions. The analysis of this setting is particularly challenging and is enabled by carefully exploiting a refined Azuma-Hoeffding inequality for almost-martingales, a technical tool that might be of independent interest. Collectively, our contributions provide the first finite-time robustness guarantees for asynchronous Q-learning, bridging a significant gap in robust RL.
- Abstract(参考訳): 我々は,報酬信号が敵の汚職を受けるような,割引された無限水平強化学習(RL)環境で最適政策を学習する問題を考察する。
このような汚職は、極度のノイズ、センサー障害、悪意のある攻撃から生じる可能性があるが、Qラーニングのような古典的なアルゴリズムのパフォーマンスを著しく低下させる可能性がある。
この課題に対処するために、観測された報酬のごく一部が敵によって任意に摂動された場合でも効果的に動作する新しいQ-ラーニングアルゴリズムを提案する。
時間相関データを用いた非同期サンプリングモデルにより, アルゴリズムの有限時間収束速度は, 逆相関しない場合の既存の結果と一致し, 崩壊したサンプルの分数に比例する加法項が成立することを確認した。
さらに,上界の加法汚職項が避けられないことを示す情報理論下界を導出する。
次に、真報酬分布の統計に関する事前知識を必要としないアルゴリズムの変種を提案する。
この設定の分析は特に困難であり、独立性のある技術ツールである準マーチングラーズにおいて、洗練された東ホフディングの不平等を慎重に活用することで実現されている。
まとめると、我々のコントリビューションは非同期Q-ラーニングのための最初の有限時間ロバスト性保証を提供し、ロバストなRLにおいて大きなギャップを埋める。
関連論文リスト
- Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - Adversarially-Robust TD Learning with Markovian Data: Finite-Time Rates and Fundamental Limits [2.07180164747172]
厳しい現実世界の環境に動機付けられ、敵の堅牢性の観点から政策評価問題を再考する。
我々はRobust-TDと呼ばれる新しいアルゴリズムを開発し、その有限時間保証がバニラTDの線形関数近似と小さな$O(epsilon)$項に一致することを証明した。
我々の知る限り、これらの結果はマルコフノイズによって駆動される敵近似スキームの文脈における最初のものである。
論文 参考訳(メタデータ) (2025-02-07T05:05:42Z) - Robust Q-Learning under Corrupted Rewards [2.07180164747172]
本稿では,Q-Learningアルゴリズムの強汚染攻撃モデルに対する堅牢性について検討する。
本研究では,実演的ベルマン演算子を構築するために,履歴報酬データを用いた新しい頑健な同期Q-ラーニングアルゴリズムを開発した。
我々の結果は、真の報酬分布が無限に支持されたとしても、有界な第2モーメントを許容するならば、維持され続ける。
論文 参考訳(メタデータ) (2024-09-05T04:37:02Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - Group Fairness with Uncertainty in Sensitive Attributes [34.608332397776245]
公正な予測モデルは、ハイテイクなアプリケーションにおける少数派グループに対する偏見のある決定を緩和するために不可欠である。
本稿では, 感度特性の不確実性にも拘わらず, フェアネスの目標レベルを達成するブートストラップに基づくアルゴリズムを提案する。
本アルゴリズムは離散的属性と連続的属性の両方に適用可能であり,実世界の分類や回帰作業に有効である。
論文 参考訳(メタデータ) (2023-02-16T04:33:00Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。
我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。
ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-03-04T09:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。