論文の概要: Overcoming Reward Model Noise in Instruction-Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.15922v1
- Date: Tue, 24 Sep 2024 09:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:01:40.797775
- Title: Overcoming Reward Model Noise in Instruction-Guided Reinforcement Learning
- Title(参考訳): 指導指導型強化学習における逆モデルノイズの克服
- Authors: Sukai Huang, Nir Lipovetzky, Trevor Cohn,
- Abstract要約: 視覚言語モデル(VLM)は、疎い報酬環境においてより情報的な報酬信号を提供する補助報酬モデルとして注目を集めている。
適切なノイズハンドリングを行わないVLMモデルを用いた強化学習エージェントは,探索駆動手法のみに依存するエージェントよりも性能が劣ることを示す。
そこで本研究では,新しい雑音耐性報酬関数であるBiMIを紹介する。
- 参考スコア(独自算出の注目度): 34.636688162807836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have gained traction as auxiliary reward models to provide more informative reward signals in sparse reward environments. However, our work reveals a critical vulnerability of this method: a small amount of noise in the reward signal can severely degrade agent performance. In challenging environments with sparse rewards, we show that reinforcement learning agents using VLM-based reward models without proper noise handling perform worse than agents relying solely on exploration-driven methods. We hypothesize that false positive rewards -- where the reward model incorrectly assigns rewards to trajectories that do not fulfill the given instruction -- are more detrimental to learning than false negatives. Our analysis confirms this hypothesis, revealing that the widely used cosine similarity metric, when applied to comparing agent trajectories and language instructions, is prone to generating false positive reward signals. To address this, we introduce BiMI (Binary Mutual Information), a novel noise-resilient reward function. Our experiments demonstrate that, BiMI significantly boosts the agent performance, with an average improvement ratio of 44.5\% across diverse environments with learned, non-oracle VLMs, thereby making VLM-based reward models practical for real-world applications.
- Abstract(参考訳): 視覚言語モデル(VLM)は、疎い報酬環境においてより情報的な報酬信号を提供する補助報酬モデルとして注目を集めている。
しかし,本手法の致命的な脆弱性が明らかとなり,報酬信号の低ノイズはエージェント性能を著しく低下させる可能性がある。
スパース報酬を伴う課題環境において、適切なノイズハンドリングを行わないVLMモデルを用いた強化学習エージェントは、探索駆動方式のみに依存するエージェントよりも性能が劣ることを示す。
報酬モデルが、与えられた指示を満たさない軌道に報酬を誤って割り当てる偽陽性報酬は、偽陰性よりも学習に有害である、という仮説を立てる。
この仮説は, エージェント軌跡と言語指示との比較において, 広く用いられているコサイン類似度指標が, 偽陽性の報奨信号を生成する傾向にあることを示すものである。
そこで本稿では,新しい雑音耐性報酬関数であるBiMI(Binary Mutual Information)を紹介する。
実験の結果, BiMI はエージェント性能を著しく向上させ, 学習された非オーラルな VLM を用いて, 様々な環境において平均 44.5 % の改善率を達成し, 実世界のアプリケーションで VLM ベースの報酬モデルを実現することができた。
関連論文リスト
- CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-23T23:55:06Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Reward Design in Cooperative Multi-agent Reinforcement Learning for
Packet Routing [8.021402935358488]
パケットルーティング環境に基づく協調型マルチエージェント強化学習(MARL)における報酬設計問題について検討する。
上述の2つの報奨信号が準最適ポリシーを生成する傾向にあることを示す。
我々は、より良いポリシーを学ぶために、既成の報酬信号の混合を設計する。
論文 参考訳(メタデータ) (2020-03-05T02:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。