論文の概要: The Distributional Reward Critic Architecture for Perturbed-Reward
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.05710v1
- Date: Thu, 11 Jan 2024 07:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 19:36:05.624831
- Title: The Distributional Reward Critic Architecture for Perturbed-Reward
Reinforcement Learning
- Title(参考訳): 摂動・反向強化学習のための分布報酬批判アーキテクチャ
- Authors: Xi Chen, Zhihui Zhu, Andrew Perrault
- Abstract要約: 報酬空間を離散化し、シャッフルする未知の任意の摂動の場合について検討する。
適応型分布報酬批判を導入し、技術的条件下で真の報酬を回復できることを理論的に示す。
- 参考スコア(独自算出の注目度): 35.459791215236464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reinforcement learning in the presence of an unknown reward
perturbation. Existing methodologies for this problem make strong assumptions
including reward smoothness, known perturbations, and/or perturbations that do
not modify the optimal policy. We study the case of unknown arbitrary
perturbations that discretize and shuffle reward space, but have the property
that the true reward belongs to the most frequently observed class after
perturbation. This class of perturbations generalizes existing classes (and, in
the limit, all continuous bounded perturbations) and defeats existing methods.
We introduce an adaptive distributional reward critic and show theoretically
that it can recover the true rewards under technical conditions. Under the
targeted perturbation in discrete and continuous control tasks, we win/tie the
highest return in 40/57 settings (compared to 16/57 for the best baseline).
Even under the untargeted perturbation, we still win an edge over the baseline
designed especially for that setting.
- Abstract(参考訳): 我々は未知の報酬摂動の存在下で強化学習を研究する。
この問題に対する既存の方法論は、報酬の滑らかさ、既知の摂動、および/または最適方針を変更しない摂動を含む強い仮定を与える。
報酬空間を離散化しシャッフルする未知の任意の摂動の場合について検討するが、摂動後最も頻繁に観察されるクラスに属する性質を持つ。
この摂動のクラスは、既存のクラス(極限においてすべての連続有界摂動)を一般化し、既存のメソッドを打ち負かす。
適応型分布報酬批判を導入し、技術的条件下で真の報酬を回復できることを理論的に示す。
離散制御タスクと連続制御タスクのターゲットの摂動の下では、40/57設定(最高のベースラインは16/57に比較)で最高リターンを獲得します。
ターゲティングされていない摂動の下でも、私たちは特にその設定のために設計されたベースラインに勝っている。
関連論文リスト
- Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals [28.94461817548213]
条件付き良性環境と任意の環境下での学習性能におけるトレードオフの可能性について,上界と下界の整合性を証明した。
この問題を線形バンディット設定に還元することで、最初に因果バンディットのインスタンス依存境界を求める。
論文 参考訳(メタデータ) (2024-07-01T04:12:15Z) - The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret [64.04721528586747]
強化学習では、意図したタスクをキャプチャする報酬関数を指定することが非常に難しい。
本稿では,報奨モデルの十分低いテスト誤差が,最悪の場合の後悔を保証できることを数学的に示す。
次に、RLHFのような手法でよく用いられるポリシー正則化手法を用いても、同様の問題が持続することを示す。
論文 参考訳(メタデータ) (2024-06-22T06:43:51Z) - Reward Certification for Policy Smoothed Reinforcement Learning [14.804252729195513]
強化学習(Reinforcement Learning, RL)は、安全クリティカルな分野において大きな成功を収めた。
近年の研究では、その堅牢性を高めるために「平滑な政策」を導入している。
報酬の総額を認定する証明可能な保証を確立することは依然として困難である。
論文 参考訳(メタデータ) (2023-12-11T15:07:58Z) - Reward Learning as Doubly Nonparametric Bandits: Optimal Design and
Scaling Laws [22.099915149343957]
本稿では、報酬学習と関連する最適実験設計問題を研究するための理論的枠組みを提案する。
まず、リッジ回帰に基づく単純なプラグイン推定器の非漸近的過剰リスク境界を導出する。
次に、クエリセットの選択に関してこれらのリスク境界を最適化し、有限サンプル統計率を得ることにより、クエリ設計問題を解決する。
論文 参考訳(メタデータ) (2023-02-23T22:07:33Z) - Causal Confusion and Reward Misidentification in Preference-Based Reward
Learning [33.944367978407904]
選好から学習する際の因果的混乱と報酬的誤認について検討した。
その結果,非因果的障害の特徴,優先条件のノイズ,部分的状態観察性の存在が,報酬の誤認を悪化させることが判明した。
論文 参考訳(メタデータ) (2022-04-13T18:41:41Z) - Benign Overfitting in Adversarially Robust Linear Classification [91.42259226639837]
分類器がノイズの多いトレーニングデータを記憶しながらも、優れた一般化性能を達成している「双曲オーバーフィッティング」は、機械学習コミュニティにおいて大きな注目を集めている。
本研究は, 対人訓練において, 対人訓練において, 良心過剰が実際に発生することを示し, 対人訓練に対する防御の原則的アプローチを示す。
論文 参考訳(メタデータ) (2021-12-31T00:27:31Z) - Unbiased Methods for Multi-Goal Reinforcement Learning [13.807859854345834]
マルチゴール強化学習では、各ゴールに対する報酬は希少であり、ゴールの小さな近傍に位置する。
我々は,HER(Hindsight Experience Replay)が,チャンシーの結果を過大評価することにより,低リターンポリシーに収束できることを示す。
我々は、このような無限にスパースな報酬を処理し、おもちゃの環境でそれらをテストできる、偏見のない深いQ-ラーニングとアクター-クリティカルなアルゴリズムを導入します。
論文 参考訳(メタデータ) (2021-06-16T15:31:51Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。