Fugu-MT 論文翻訳(概要): The Distributional Reward Critic Framework for Reinforcement Learning Under Perturbed Rewards

論文の概要: The Distributional Reward Critic Framework for Reinforcement Learning Under Perturbed Rewards

arxiv url: http://arxiv.org/abs/2401.05710v2
Date: Wed, 18 Dec 2024 07:04:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 18:59:48.918657
Title: The Distributional Reward Critic Framework for Reinforcement Learning Under Perturbed Rewards
Title（参考訳）: インタクテッド・リワードによる強化学習のための分布的リワード批判フレームワーク
Authors: Xi Chen, Zhihui Zhu, Andrew Perrault,
Abstract要約: 報酬信号は、強化学習におけるエージェントの望ましい振る舞いを定義する上で中心的な役割を果たす。本稿では,トレーニング中の報酬分布と摂動を推定するための分配報酬批判フレームワークを提案する。その結果、報奨環境下でRLを実行する能力の拡大と深化が図られた。
参考スコア（独自算出の注目度）: 31.550669983576544
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The reward signal plays a central role in defining the desired behaviors of agents in reinforcement learning (RL). Rewards collected from realistic environments could be perturbed, corrupted, or noisy due to an adversary, sensor error, or because they come from subjective human feedback. Thus, it is important to construct agents that can learn under such rewards. Existing methodologies for this problem make strong assumptions, including that the perturbation is known in advance, clean rewards are accessible, or that the perturbation preserves the optimal policy. We study a new, more general, class of unknown perturbations, and introduce a distributional reward critic framework for estimating reward distributions and perturbations during training. Our proposed methods are compatible with any RL algorithm. Despite their increased generality, we show that they achieve comparable or better rewards than existing methods in a variety of environments, including those with clean rewards. Under the challenging and generalized perturbations we study, we win/tie the highest return in 44/48 tested settings (compared to 11/48 for the best baseline). Our results broaden and deepen our ability to perform RL in reward-perturbed environments.
Abstract（参考訳）: 報酬信号は、強化学習(RL)におけるエージェントの望ましい振る舞いを定義する上で中心的な役割を果たす。現実的な環境から収集されたリワードは、敵対的、センサーエラー、あるいは主観的な人間のフィードバックによって引き起こされる可能性がある。したがって、そのような報酬の下で学習できるエージェントを構築することが重要である。この問題の既存の方法論は、摂動が事前に知られていること、清潔な報奨が利用できること、あるいは摂動が最適な政策を維持することなど、強い仮定をしている。我々は、未知の摂動のクラスを新たに研究し、トレーニング中に報酬分布と摂動を推定するための分布的報酬批判フレームワークを導入する。提案手法は任意のRLアルゴリズムと互換性がある。一般性の向上にもかかわらず、クリーンな報酬を含む様々な環境において、既存の方法よりも同等あるいは優れた報酬を達成できることが示される。挑戦的で一般化された摂動の下では、44/48テスト設定(ベストベースラインで11/48に比較)において、最も高いリターンを勝ち得ます。その結果、報奨環境下でRLを実行する能力の拡大と深化が図られた。

関連論文リスト

Towards better dense rewards in Reinforcement Learning Applications [0.7344790292816897]
強化学習(RL)分野における意味的かつ正確な高密度報酬の発見は基本的な課題であるデンス報酬関数は、エージェントの振る舞いを形作り、学習を加速することで潜在的な解決策を提供する。本提案では,未解決問題に対処し,高密度報酬構築の有効性と信頼性を高めるためのいくつかのアプローチについて検討する。
論文参考訳（メタデータ） (2025-12-03T22:36:55Z)
Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
The Dark Side of Rich Rewards: Understanding and Mitigating Noise in VLM Rewards [31.806143589311652]
VLM(Vision-Language Models)は、エンボディエージェントを訓練するための報酬信号を生成するために使われるようになっている。我々の研究によると、VLM報酬によって誘導されるエージェントは、本質的な報酬のみを使用するエージェントに比べて、しばしばパフォーマンスが劣っている。ノイズを緩和する新しい報奨関数であるBiMIを導入する。
論文参考訳（メタデータ） (2024-09-24T09:45:20Z)
Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals [28.94461817548213]
条件付き良性環境と任意の環境下での学習性能におけるトレードオフの可能性について,上界と下界の整合性を証明した。この問題を線形バンディット設定に還元することで、最初に因果バンディットのインスタンス依存境界を求める。
論文参考訳（メタデータ） (2024-07-01T04:12:15Z)
The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret [64.04721528586747]
強化学習では、意図したタスクをキャプチャする報酬関数を指定することが非常に難しい。本稿では,報奨モデルの十分低いテスト誤差が,最悪の場合の後悔を保証できることを数学的に示す。次に、RLHFのような手法でよく用いられるポリシー正則化手法を用いても、同様の問題が持続することを示す。
論文参考訳（メタデータ） (2024-06-22T06:43:51Z)
Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。多くの実世界のシナリオでは、即時報酬信号の設計は困難である。本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文参考訳（メタデータ） (2024-02-06T07:26:44Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Reward Certification for Policy Smoothed Reinforcement Learning [14.804252729195513]
強化学習(Reinforcement Learning, RL)は、安全クリティカルな分野において大きな成功を収めた。近年の研究では、その堅牢性を高めるために「平滑な政策」を導入している。報酬の総額を認定する証明可能な保証を確立することは依然として困難である。
論文参考訳（メタデータ） (2023-12-11T15:07:58Z)
A Multiplicative Value Function for Safe and Efficient Reinforcement Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文参考訳（メタデータ） (2023-03-07T18:29:15Z)
Reward Learning as Doubly Nonparametric Bandits: Optimal Design and Scaling Laws [22.099915149343957]
本稿では、報酬学習と関連する最適実験設計問題を研究するための理論的枠組みを提案する。まず、リッジ回帰に基づく単純なプラグイン推定器の非漸近的過剰リスク境界を導出する。次に、クエリセットの選択に関してこれらのリスク境界を最適化し、有限サンプル統計率を得ることにより、クエリ設計問題を解決する。
論文参考訳（メタデータ） (2023-02-23T22:07:33Z)
Internally Rewarded Reinforcement Learning [22.01249652558878]
政策学習の報奨信号が内部報酬モデルによって生成される強化学習のクラスについて検討する。提案した報奨関数は,報奨音の影響を低減し,トレーニング過程を一定に安定化させることができることを示す。
論文参考訳（メタデータ） (2023-02-01T06:25:46Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
Causal Confusion and Reward Misidentification in Preference-Based Reward Learning [33.944367978407904]
選好から学習する際の因果的混乱と報酬的誤認について検討した。その結果,非因果的障害の特徴,優先条件のノイズ,部分的状態観察性の存在が,報酬の誤認を悪化させることが判明した。
論文参考訳（メタデータ） (2022-04-13T18:41:41Z)
Benign Overfitting in Adversarially Robust Linear Classification [91.42259226639837]
分類器がノイズの多いトレーニングデータを記憶しながらも、優れた一般化性能を達成している「双曲オーバーフィッティング」は、機械学習コミュニティにおいて大きな注目を集めている。本研究は, 対人訓練において, 対人訓練において, 良心過剰が実際に発生することを示し, 対人訓練に対する防御の原則的アプローチを示す。
論文参考訳（メタデータ） (2021-12-31T00:27:31Z)
Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:40Z)
Unbiased Methods for Multi-Goal Reinforcement Learning [13.807859854345834]
マルチゴール強化学習では、各ゴールに対する報酬は希少であり、ゴールの小さな近傍に位置する。我々は,HER(Hindsight Experience Replay)が,チャンシーの結果を過大評価することにより,低リターンポリシーに収束できることを示す。我々は、このような無限にスパースな報酬を処理し、おもちゃの環境でそれらをテストできる、偏見のない深いQ-ラーニングとアクター-クリティカルなアルゴリズムを導入します。
論文参考訳（メタデータ） (2021-06-16T15:31:51Z)
Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文参考訳（メタデータ） (2020-12-12T20:06:15Z)
Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文参考訳（メタデータ） (2020-06-22T16:06:25Z)
Maximizing Information Gain in Partially Observable Environments via Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。負のエントロピーと予測される予測報酬の正確な誤差を導出する。この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文参考訳（メタデータ） (2020-05-11T08:13:49Z)
Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文参考訳（メタデータ） (2020-03-05T21:29:27Z)
Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文参考訳（メタデータ） (2019-11-20T03:49:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。