論文の概要: Reward Generation via Large Vision-Language Model in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.08772v1
- Date: Thu, 03 Apr 2025 07:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 05:34:53.865951
- Title: Reward Generation via Large Vision-Language Model in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習における大規模ビジョンランゲージモデルによるリワード生成
- Authors: Younghwan Lee, Tung M. Luu, Donghoon Lee, Chang D. Yoo,
- Abstract要約: オフライン強化学習(RL)では、固定データセットからの学習が、環境とのリアルタイムインタラクションが高価またはリスクの高いドメインに対して、有望なソリューションを提供する。
人間の関与なしにオフラインデータから報酬を生成するために,RG-VLM(Large Vision-Language Models)によるリワード生成を提案する。
- 参考スコア(独自算出の注目度): 19.48826538310603
- License:
- Abstract: In offline reinforcement learning (RL), learning from fixed datasets presents a promising solution for domains where real-time interaction with the environment is expensive or risky. However, designing dense reward signals for offline dataset requires significant human effort and domain expertise. Reinforcement learning with human feedback (RLHF) has emerged as an alternative, but it remains costly due to the human-in-the-loop process, prompting interest in automated reward generation models. To address this, we propose Reward Generation via Large Vision-Language Models (RG-VLM), which leverages the reasoning capabilities of LVLMs to generate rewards from offline data without human involvement. RG-VLM improves generalization in long-horizon tasks and can be seamlessly integrated with the sparse reward signals to enhance task performance, demonstrating its potential as an auxiliary reward signal.
- Abstract(参考訳): オフライン強化学習(RL)では、固定データセットからの学習は、環境とのリアルタイムインタラクションが高価またはリスクの高い領域に対して、有望なソリューションを提供する。
しかし、オフラインデータセットのための密集した報酬シグナルを設計するには、かなりの努力とドメインの専門知識が必要である。
人間のフィードバックによる強化学習(RLHF)が代替手段として登場したが、そのコストは、ループ内の人間プロセスによるものであり、自動報酬生成モデルへの関心が高まっている。
これを解決するために,LVLMの推論能力を活用し,人間の関与なしにオフラインデータから報酬を生成するReward Generation via Large Vision-Language Models (RG-VLM)を提案する。
RG-VLMは、長距離タスクの一般化を改善し、スパース報酬信号とシームレスに統合してタスク性能を高め、補助報酬信号としての可能性を示す。
関連論文リスト
- Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
次に、生成された軌道の品質を保証するために軌道報酬モデルを用いる。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - Real-World Offline Reinforcement Learning from Vision Language Model Feedback [19.494335952082466]
オフラインの強化学習は、オンラインインタラクションなしで、事前にコンパイルされた、最適なデータセットからポリシー学習を可能にする。
既存のオフラインRL作業の多くは、データセットにタスク報酬がラベル付けされていることを前提としている。
オフラインデータセットの報酬ラベルを自動的に生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:12:34Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Offline Reinforcement Learning with Imputed Rewards [8.856568375969848]
本稿では,報酬を付与した環境遷移のごく限られたサンプルから報酬信号を推定できるリワードモデルを提案する。
その結果、元のデータセットからの報酬ラベル付き遷移の1%しか使用していないため、学習した報酬モデルは残りの99%の遷移に対して報酬を付与できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T15:53:13Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Scaling Vision-and-Language Navigation With Offline RL [35.624579441774685]
本稿では,VLN-ORLの新しい問題設定について紹介する。
本稿では,VLNエージェントを訓練するためのデータセットの最適度を考慮に入れた,単純かつ効果的な報酬条件付きアプローチを提案する。
本実験は,提案手法が性能改善につながることを示すものである。
論文 参考訳(メタデータ) (2024-03-27T11:13:20Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning
in Surgical Robotic Environments [4.2569494803130565]
我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。
このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
論文 参考訳(メタデータ) (2023-10-13T03:39:15Z) - Robust Reinforcement Learning Objectives for Sequential Recommender Systems [7.44049827436013]
我々は、報酬の形で直接ユーザーフィードバックを取り入れ、ユーザのパーソナライズを高めるレコメンデーションシステムを開発する。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペース、十分な報酬信号を持つデータセットの不足など、課題が提示される。
これらの課題に対して、より効果的な解決策を提供するための拡張された方法論を導入します。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。