論文の概要: The Distributional Reward Critic Architecture for Perturbed-Reward
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.05710v1
- Date: Thu, 11 Jan 2024 07:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 19:36:05.624831
- Title: The Distributional Reward Critic Architecture for Perturbed-Reward
Reinforcement Learning
- Title(参考訳): 摂動・反向強化学習のための分布報酬批判アーキテクチャ
- Authors: Xi Chen, Zhihui Zhu, Andrew Perrault
- Abstract要約: 報酬空間を離散化し、シャッフルする未知の任意の摂動の場合について検討する。
適応型分布報酬批判を導入し、技術的条件下で真の報酬を回復できることを理論的に示す。
- 参考スコア(独自算出の注目度): 35.459791215236464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reinforcement learning in the presence of an unknown reward
perturbation. Existing methodologies for this problem make strong assumptions
including reward smoothness, known perturbations, and/or perturbations that do
not modify the optimal policy. We study the case of unknown arbitrary
perturbations that discretize and shuffle reward space, but have the property
that the true reward belongs to the most frequently observed class after
perturbation. This class of perturbations generalizes existing classes (and, in
the limit, all continuous bounded perturbations) and defeats existing methods.
We introduce an adaptive distributional reward critic and show theoretically
that it can recover the true rewards under technical conditions. Under the
targeted perturbation in discrete and continuous control tasks, we win/tie the
highest return in 40/57 settings (compared to 16/57 for the best baseline).
Even under the untargeted perturbation, we still win an edge over the baseline
designed especially for that setting.
- Abstract(参考訳): 我々は未知の報酬摂動の存在下で強化学習を研究する。
この問題に対する既存の方法論は、報酬の滑らかさ、既知の摂動、および/または最適方針を変更しない摂動を含む強い仮定を与える。
報酬空間を離散化しシャッフルする未知の任意の摂動の場合について検討するが、摂動後最も頻繁に観察されるクラスに属する性質を持つ。
この摂動のクラスは、既存のクラス(極限においてすべての連続有界摂動)を一般化し、既存のメソッドを打ち負かす。
適応型分布報酬批判を導入し、技術的条件下で真の報酬を回復できることを理論的に示す。
離散制御タスクと連続制御タスクのターゲットの摂動の下では、40/57設定(最高のベースラインは16/57に比較)で最高リターンを獲得します。
ターゲティングされていない摂動の下でも、私たちは特にその設定のために設計されたベースラインに勝っている。
関連論文リスト
- The Dark Side of Rich Rewards: Understanding and Mitigating Noise in VLM Rewards [31.806143589311652]
VLM(Vision-Language Models)は、エンボディエージェントを訓練するための報酬信号を生成するために使われるようになっている。
我々の研究によると、VLM報酬によって誘導されるエージェントは、本質的な報酬のみを使用するエージェントに比べて、しばしばパフォーマンスが劣っている。
ノイズを緩和する新しい報奨関数であるBiMIを導入する。
論文 参考訳(メタデータ) (2024-09-24T09:45:20Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Internally Rewarded Reinforcement Learning [22.01249652558878]
政策学習の報奨信号が内部報酬モデルによって生成される強化学習のクラスについて検討する。
提案した報奨関数は,報奨音の影響を低減し,トレーニング過程を一定に安定化させることができることを示す。
論文 参考訳(メタデータ) (2023-02-01T06:25:46Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Unbiased Methods for Multi-Goal Reinforcement Learning [13.807859854345834]
マルチゴール強化学習では、各ゴールに対する報酬は希少であり、ゴールの小さな近傍に位置する。
我々は,HER(Hindsight Experience Replay)が,チャンシーの結果を過大評価することにより,低リターンポリシーに収束できることを示す。
我々は、このような無限にスパースな報酬を処理し、おもちゃの環境でそれらをテストできる、偏見のない深いQ-ラーニングとアクター-クリティカルなアルゴリズムを導入します。
論文 参考訳(メタデータ) (2021-06-16T15:31:51Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。