Fugu-MT 論文翻訳(概要): The Dark Side of Rich Rewards: Understanding and Mitigating Noise in VLM Rewards

論文の概要: The Dark Side of Rich Rewards: Understanding and Mitigating Noise in VLM Rewards

arxiv url: http://arxiv.org/abs/2409.15922v2
Date: Wed, 23 Oct 2024 03:22:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 19:21:13.722263
Title: The Dark Side of Rich Rewards: Understanding and Mitigating Noise in VLM Rewards
Title（参考訳）: リッチリワードのダークサイド:VLMリワードにおけるノイズの理解と緩和
Authors: Sukai Huang, Nir Lipovetzky, Trevor Cohn,
Abstract要約: VLM(Vision-Language Models)は、エンボディエージェントを訓練するための報酬信号を生成するために使われるようになっている。我々の研究によると、VLM報酬によって誘導されるエージェントは、本質的な報酬のみを使用するエージェントに比べて、しばしばパフォーマンスが劣っている。ノイズを緩和する新しい報奨関数であるBiMIを導入する。
参考スコア（独自算出の注目度）: 34.636688162807836
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Vision-Language Models (VLMs) are increasingly used to generate reward signals for training embodied agents to follow instructions, our research reveals that agents guided by VLM rewards often underperform compared to those employing only intrinsic (exploration-driven) rewards, contradicting expectations set by recent work. We hypothesize that false positive rewards -- instances where unintended trajectories are incorrectly rewarded -- are more detrimental than false negatives. Our analysis confirms this hypothesis, revealing that the widely used cosine similarity metric is prone to false positive reward estimates. To address this, we introduce BiMI ({Bi}nary {M}utual {I}nformation), a novel reward function designed to mitigate noise. BiMI significantly enhances learning efficiency across diverse and challenging embodied navigation environments. Our findings offer a nuanced understanding of how different types of reward noise impact agent learning and highlight the importance of addressing multimodal reward signal noise when training embodied agents
Abstract（参考訳）: VLM(Vision-Language Models)は、インボディードエージェントに指示に従うための報酬信号を生成するために使われることが多いが、本研究では、本質的な(探索駆動)報酬のみを使用するエージェントと比較して、VLM報酬によって導かれるエージェントは、近年の成果に反するものとして、しばしば性能が低下することが判明した。偽陽性報酬(意図しない軌道が誤って報酬を受ける場合)は偽陰性よりも有害である、という仮説を立てる。分析によってこの仮説が裏付けられ、広く使われているコサイン類似度測定基準が偽陽性報酬推定の傾向にあることが明らかとなった。そこで本稿では,ノイズを緩和する新しい報奨関数であるBiMI({Bi}nary {M}utual {I}nformation)を導入する。 BiMIは多様な、難易度の高いナビゲーション環境における学習効率を大幅に向上させる。我々の研究は、様々な種類の報奨ノイズの影響剤の学習方法の微妙な理解を提供し、トレーニング実施時のマルチモーダル報酬信号ノイズへの対処の重要性を強調した。

関連論文リスト

Towards better dense rewards in Reinforcement Learning Applications [0.7344790292816897]
強化学習(RL)分野における意味的かつ正確な高密度報酬の発見は基本的な課題であるデンス報酬関数は、エージェントの振る舞いを形作り、学習を加速することで潜在的な解決策を提供する。本提案では,未解決問題に対処し,高密度報酬構築の有効性と信頼性を高めるためのいくつかのアプローチについて検討する。
論文参考訳（メタデータ） (2025-12-03T22:36:55Z)
Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文参考訳（メタデータ） (2025-12-03T04:42:47Z)
Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
The Distributional Reward Critic Framework for Reinforcement Learning Under Perturbed Rewards [31.550669983576544]
報酬信号は、強化学習におけるエージェントの望ましい振る舞いを定義する上で中心的な役割を果たす。本稿では,トレーニング中の報酬分布と摂動を推定するための分配報酬批判フレームワークを提案する。その結果、報奨環境下でRLを実行する能力の拡大と深化が図られた。
論文参考訳（メタデータ） (2024-01-11T07:25:28Z)
CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文参考訳（メタデータ） (2023-02-09T17:16:29Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文参考訳（メタデータ） (2022-01-10T18:58:52Z)
Learning Long-Term Reward Redistribution via Randomized Return Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文参考訳（メタデータ） (2021-11-26T13:23:36Z)
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。 Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文参考訳（メタデータ） (2021-02-24T21:12:09Z)
Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文参考訳（メタデータ） (2020-12-12T20:06:15Z)
Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文参考訳（メタデータ） (2020-10-23T23:55:06Z)
Maximizing Information Gain in Partially Observable Environments via Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。負のエントロピーと予測される予測報酬の正確な誤差を導出する。この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文参考訳（メタデータ） (2020-05-11T08:13:49Z)
Reward Design in Cooperative Multi-agent Reinforcement Learning for Packet Routing [8.021402935358488]
パケットルーティング環境に基づく協調型マルチエージェント強化学習(MARL)における報酬設計問題について検討する。上述の2つの報奨信号が準最適ポリシーを生成する傾向にあることを示す。我々は、より良いポリシーを学ぶために、既成の報酬信号の混合を設計する。
論文参考訳（メタデータ） (2020-03-05T02:27:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。