論文の概要: VARP: Reinforcement Learning from Vision-Language Model Feedback with Agent Regularized Preferences
- arxiv url: http://arxiv.org/abs/2503.13817v1
- Date: Tue, 18 Mar 2025 01:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:58.681623
- Title: VARP: Reinforcement Learning from Vision-Language Model Feedback with Agent Regularized Preferences
- Title(参考訳): VARP:エージェント正規化選好を用いた視覚言語モデルフィードバックからの強化学習
- Authors: Anukriti Singh, Amisha Bhaskar, Peihong Yu, Souradip Chakraborty, Ruthwik Dasyam, Amrit Bedi, Pratap Tokekar,
- Abstract要約: 嗜好に基づくRLは、比較フィードバックから報酬を学ぶことによって、これらの落とし穴のいくつかを緩和する。
単一の最終状態の画像は、一般的にエージェントの完全な動きを捉えるのに失敗する。
本稿では,フィードバックの精度を向上し,報酬学習とエージェントのポリシーの整合性を向上する2部構成のソリューションを提案する。
- 参考スコア(独自算出の注目度): 13.337649128532307
- License:
- Abstract: Designing reward functions for continuous-control robotics often leads to subtle misalignments or reward hacking, especially in complex tasks. Preference-based RL mitigates some of these pitfalls by learning rewards from comparative feedback rather than hand-crafted signals, yet scaling human annotations remains challenging. Recent work uses Vision-Language Models (VLMs) to automate preference labeling, but a single final-state image generally fails to capture the agent's full motion. In this paper, we present a two-part solution that both improves feedback accuracy and better aligns reward learning with the agent's policy. First, we overlay trajectory sketches on final observations to reveal the path taken, allowing VLMs to provide more reliable preferences-improving preference accuracy by approximately 15-20% in metaworld tasks. Second, we regularize reward learning by incorporating the agent's performance, ensuring that the reward model is optimized based on data generated by the current policy; this addition boosts episode returns by 20-30% in locomotion tasks. Empirical studies on metaworld demonstrate that our method achieves, for instance, around 70-80% success rate in all tasks, compared to below 50% for standard approaches. These results underscore the efficacy of combining richer visual representations with agent-aware reward regularization.
- Abstract(参考訳): 連続制御ロボティクスの報酬関数の設計は、特に複雑なタスクにおいて、微妙なミスアライメントや報酬ハックにつながることが多い。
優先度に基づくRLは、手作りの信号ではなく、比較フィードバックから報酬を学ぶことによって、これらの落とし穴のいくつかを緩和するが、人間のアノテーションのスケールは依然として難しい。
最近の研究では、VLM(Vision-Language Models)を使用して優先表示を自動化するが、単一の最終状態画像はエージェントの完全な動きを捉えることができない。
本稿では,フィードバックの精度を向上し,報酬学習をエージェントの方針に整合させる2部構成のソリューションを提案する。
まず、最終観測の軌跡をオーバーレイして、得られた経路を明らかにすることにより、VLMはより信頼性の高い選好精度を、メタワールドタスクで約15~20%向上させることができる。
第2に、エージェントのパフォーマンスを取り入れて報酬学習を規則化し、現在のポリシーによって生成されたデータに基づいて報酬モデルが最適化されることを保証する。
メタワールドに関する実証的研究により、我々の手法は、例えば、標準的な手法に比べて、すべてのタスクで約70-80%の成功率を達成することが示された。
これらの結果は,よりリッチな視覚表現とエージェント認識報酬正規化の併用の有効性を裏付けるものである。
関連論文リスト
- Learning Goal-Conditioned Representations for Language Reward Models [10.94845204766088]
対照的な$textitgoal-conditioned$でトレーニング報酬モデル(RM)を提案する。
RM表現のこのトレーニング方法により、textitsteerability$が向上し、特定の目標状態を達成するアクションの可能性を評価することができる。
さらに、これらの表現は、希望する将来の目標状態に条件付けすることで、きめ細かい制御を行うことができる。
論文 参考訳(メタデータ) (2024-07-18T20:23:11Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。
後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。
これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文 参考訳(メタデータ) (2021-03-14T15:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。