Fugu-MT 論文翻訳(概要): Code as Reward: Empowering Reinforcement Learning with VLMs

論文の概要: Code as Reward: Empowering Reinforcement Learning with VLMs

arxiv url: http://arxiv.org/abs/2402.04764v1
Date: Wed, 7 Feb 2024 11:27:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 15:37:18.618245
Title: Code as Reward: Empowering Reinforcement Learning with VLMs
Title（参考訳）: コード・アズ・リワード - VLMによる強化学習の強化
Authors: David Venuto, Sami Nur Islam, Martin Klissarov, Doina Precup, Sherry Yang, Ankit Anand
Abstract要約: 本稿では,事前学習した視覚言語モデルから高密度報酬関数を生成するために,Code as Reward (VLM-CaR) というフレームワークを提案する。 VLM-CaRは、VLMを直接クエリする際の計算負担を大幅に削減する。このアプローチによって生成される高密度な報酬は、様々な離散的かつ連続的な環境において非常に正確であることを示す。
参考スコア（独自算出の注目度）: 37.862999288331906
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained Vision-Language Models (VLMs) are able to understand visual concepts, describe and decompose complex tasks into sub-tasks, and provide feedback on task completion. In this paper, we aim to leverage these capabilities to support the training of reinforcement learning (RL) agents. In principle, VLMs are well suited for this purpose, as they can naturally analyze image-based observations and provide feedback (reward) on learning progress. However, inference in VLMs is computationally expensive, so querying them frequently to compute rewards would significantly slowdown the training of an RL agent. To address this challenge, we propose a framework named Code as Reward (VLM-CaR). VLM-CaR produces dense reward functions from VLMs through code generation, thereby significantly reducing the computational burden of querying the VLM directly. We show that the dense rewards generated through our approach are very accurate across a diverse set of discrete and continuous environments, and can be more effective in training RL policies than the original sparse environment rewards.
Abstract（参考訳）: 事前訓練されたビジョンランゲージモデル(VLM)は視覚概念を理解し、複雑なタスクをサブタスクに記述し分解し、タスク完了に関するフィードバックを提供する。本稿では,これらの能力を活用して強化学習(rl)エージェントのトレーニングを支援することを目的とする。原則として、VLMは画像に基づく観察を自然に分析し、学習の進捗に対するフィードバック(回帰)を提供するため、この目的に適している。しかしながら、VLMの推論は計算コストがかかるため、報酬を計算するために頻繁にクエリすることで、RLエージェントのトレーニングを著しく遅くする。この課題に対処するため,Code as Reward (VLM-CaR) というフレームワークを提案する。 VLM-CaRは、コード生成によってVLMから高密度報酬関数を生成し、VLMを直接クエリする際の計算負担を大幅に削減する。提案手法により得られた高密度報酬は, 多様な離散的かつ連続的な環境において非常に正確であり, 元の疎環境報酬よりもRLポリシーの訓練に有効であることを示す。

関連論文リスト

Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-06-02T17:28:26Z)
Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文参考訳（メタデータ） (2024-10-22T15:59:58Z)
VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning [18.60627708199452]
オンライン強化学習(RL)における事前学習型視覚言語モデル(VLM)の活用について検討する。本稿ではまず,VLMをRLタスクの報酬として適用する際の報酬ミスアライメントの問題を同定する。ファジィVLM報酬支援RL(FuRL)という軽量微調整法を導入する。
論文参考訳（メタデータ） (2024-06-02T07:20:08Z)
RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文参考訳（メタデータ） (2024-02-06T04:06:06Z)
Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文参考訳（メタデータ） (2024-02-05T00:48:56Z)
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning [12.628697648945298]
強化学習(Reinforcement Learning, RL)は、報酬関数を手動で指定するか、あるいは大量のフィードバックから報酬モデルを学ぶことを必要とする。本稿では,事前学習された視覚言語モデル (VLM) をゼロショット報酬モデル (RM) として用いて,自然言語によるタスクの特定を行う。
論文参考訳（メタデータ） (2023-10-19T17:17:06Z)
Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文参考訳（メタデータ） (2023-08-23T17:37:51Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)
Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。 CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文参考訳（メタデータ） (2023-05-29T11:03:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。