論文の概要: Policy Learning from Large Vision-Language Model Feedback without Reward Modeling
- arxiv url: http://arxiv.org/abs/2507.23391v1
- Date: Thu, 31 Jul 2025 10:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.508576
- Title: Policy Learning from Large Vision-Language Model Feedback without Reward Modeling
- Title(参考訳): 遅延モデリングを伴わない大規模視覚言語モデルフィードバックからの政策学習
- Authors: Tung M. Luu, Donghoon Lee, Younghwan Lee, Chang D. Yoo,
- Abstract要約: 本稿では,大規模視覚言語モデル(VLM)を活用し,エージェント訓練のためのガイダンス信号を提供するPLAREを紹介する。
手動で設計した報酬関数に頼る代わりに、PLAREは視覚軌道セグメントのペアの優先ラベルに対してVLMをクエリする。
このポリシーは、教師付きコントラスト的選好学習目標を用いて、これらの選好ラベルから直接訓練される。
- 参考スコア(独自算出の注目度): 19.48826538310603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) provides a powerful framework for training robotic agents using pre-collected, suboptimal datasets, eliminating the need for costly, time-consuming, and potentially hazardous online interactions. This is particularly useful in safety-critical real-world applications, where online data collection is expensive and impractical. However, existing offline RL algorithms typically require reward labeled data, which introduces an additional bottleneck: reward function design is itself costly, labor-intensive, and requires significant domain expertise. In this paper, we introduce PLARE, a novel approach that leverages large vision-language models (VLMs) to provide guidance signals for agent training. Instead of relying on manually designed reward functions, PLARE queries a VLM for preference labels on pairs of visual trajectory segments based on a language task description. The policy is then trained directly from these preference labels using a supervised contrastive preference learning objective, bypassing the need to learn explicit reward models. Through extensive experiments on robotic manipulation tasks from the MetaWorld, PLARE achieves performance on par with or surpassing existing state-of-the-art VLM-based reward generation methods. Furthermore, we demonstrate the effectiveness of PLARE in real-world manipulation tasks with a physical robot, further validating its practical applicability.
- Abstract(参考訳): オフライン強化学習(RL)は、事前コンパイルされた最適なデータセットを使用してロボットエージェントを訓練するための強力なフレームワークを提供する。
これは、オンラインデータ収集が高価で実用的でない、安全クリティカルな現実世界のアプリケーションで特に有用である。
しかし、既存のオフラインRLアルゴリズムは、通常、報酬ラベル付きデータを必要とする。
本稿では,大規模視覚言語モデル(VLM)を利用したエージェント訓練のためのガイダンス信号を提供するPLAREを紹介する。
手動で設計した報酬関数に頼る代わりに、PLAREは言語タスク記述に基づく視覚的軌跡セグメントのペアの選好ラベルをVLMに問い合わせる。
このポリシーは、明示的な報酬モデルを学ぶ必要性を回避し、教師付きコントラスト的な選好学習目標を用いて、これらの選好ラベルから直接訓練される。
MetaWorldのロボット操作タスクに関する広範な実験を通じて、PLAREは既存の最先端のVLMベースの報酬生成手法に匹敵するパフォーマンスを達成している。
さらに,物理ロボットを用いた実世界の操作作業におけるPLAREの有効性を実証し,実用性を検証した。
関連論文リスト
- ViVa: Video-Trained Value Functions for Guiding Online RL from Diverse Data [56.217490064597506]
広範に利用可能なビデオデータから学習することで、RLを自動的に誘導するデータ駆動手法を提案し、分析する。
インテント条件付き値関数を使用して、多様なビデオから学び、これらのゴール条件付き値を報酬に組み込む。
実験により、ビデオ学習値関数は、様々なデータソースとうまく機能し、人間のビデオ事前学習からのポジティブな転送を示し、目に見えない目標に一般化し、データセットサイズでスケールできることが示されている。
論文 参考訳(メタデータ) (2025-03-23T21:24:33Z) - Real-World Offline Reinforcement Learning from Vision Language Model Feedback [19.494335952082466]
オフラインの強化学習は、オンラインインタラクションなしで、事前にコンパイルされた、最適なデータセットからポリシー学習を可能にする。
既存のオフラインRL作業の多くは、データセットにタスク報酬がラベル付けされていることを前提としている。
オフラインデータセットの報酬ラベルを自動的に生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:12:34Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning
in Surgical Robotic Environments [4.2569494803130565]
我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。
このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
論文 参考訳(メタデータ) (2023-10-13T03:39:15Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。