論文の概要: RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model
Feedback
- arxiv url: http://arxiv.org/abs/2402.03681v3
- Date: Sat, 2 Mar 2024 00:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 19:56:30.190532
- Title: RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model
Feedback
- Title(参考訳): RL-VLM-F:ビジョン言語モデルからの強化学習
- Authors: Yufei Wang, Zhanyi Sun, Jesse Zhang, Zhou Xian, Erdem Biyik, David
Held, Zackory Erickson
- Abstract要約: リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
- 参考スコア(独自算出の注目度): 26.001201897655115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward engineering has long been a challenge in Reinforcement Learning (RL)
research, as it often requires extensive human effort and iterative processes
of trial-and-error to design effective reward functions. In this paper, we
propose RL-VLM-F, a method that automatically generates reward functions for
agents to learn new tasks, using only a text description of the task goal and
the agent's visual observations, by leveraging feedbacks from vision language
foundation models (VLMs). The key to our approach is to query these models to
give preferences over pairs of the agent's image observations based on the text
description of the task goal, and then learn a reward function from the
preference labels, rather than directly prompting these models to output a raw
reward score, which can be noisy and inconsistent. We demonstrate that RL-VLM-F
successfully produces effective rewards and policies across various domains -
including classic control, as well as manipulation of rigid, articulated, and
deformable objects - without the need for human supervision, outperforming
prior methods that use large pretrained models for reward generation under the
same assumptions. Videos can be found on our project website:
https://rlvlmf2024.github.io/
- Abstract(参考訳): 報酬工学は強化学習(rl)研究において長年の課題であり、効果的な報酬機能を設計するには、人間の努力と試行錯誤の反復プロセスがしばしば必要となる。
本稿では,視覚言語基礎モデル(VLM)からのフィードバックを利用して,タスク目標のテキスト記述とエージェントの視覚観察のみを用いて,エージェントが新しいタスクを学習するための報酬関数を自動的に生成する手法であるRL-VLM-Fを提案する。
提案手法の鍵となるのは,タスクゴールのテキスト記述に基づいて,エージェントのイメージ観察のペアよりも好みを与えるためにこれらのモデルをクエリし,そのモデルに生の報酬スコアを出力させるのではなく,好みラベルから報酬関数を学習することである。
我々は、RL-VLM-Fが、古典的な制御を含む様々な領域にまたがる効果的な報酬とポリシー、および、厳密で明瞭で変形可能な物体の操作を、人間の監督なしに実現できることを実証した。
ビデオはプロジェクトのwebサイトにある。 https://rlvlmf2024.github.io/
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning [25.82540393199001]
CARDは報酬関数コードを反復的に生成し改善するリワードデザインフレームワークである。
CARDにはコードの生成と検証を行うCoderが含まれており、Evaluatorはコードを改善するためにCoderをガイドする動的なフィードバックを提供する。
論文 参考訳(メタデータ) (2024-10-18T17:51:51Z) - OCALM: Object-Centric Assessment with Language Models [33.10137796492542]
本稿では,言語モデルを用いたオブジェクト指向アセスメント(OCALM)を提案し,強化学習エージェントに対して本質的に解釈可能な報酬関数を導出する。
OCALMは、リレーショナルな概念に焦点を当てた報酬関数を導出するために、言語モデルの広範な世界知識を使用する。
論文 参考訳(メタデータ) (2024-06-24T15:57:48Z) - FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning [18.60627708199452]
オンライン強化学習(RL)における事前学習型視覚言語モデル(VLM)の活用について検討する。
本稿ではまず,VLMをRLタスクの報酬として適用する際の報酬ミスアライメントの問題を同定する。
ファジィVLM報酬支援RL(FuRL)という軽量微調整法を導入する。
論文 参考訳(メタデータ) (2024-06-02T07:20:08Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Reward Design with Language Models [27.24197025688919]
強化学習におけるリワード設計(Reward design in reinforcement learning, RL)は、人間の望ましい行動の概念を特定することは、報酬関数や専門家によるデモンストレーションを必要とするため困難である。
代わりに、自然言語インターフェースを使って報酬を安く設計できますか?
本稿では,代用報酬関数として GPT-3 などの大規模言語モデル (LLM) を提案する。
論文 参考訳(メタデータ) (2023-02-27T22:09:35Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。