Fugu-MT 論文翻訳(概要): Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

論文の概要: Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2310.12921v2
Date: Thu, 14 Mar 2024 12:16:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 02:22:46.606459
Title: Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
Title（参考訳）: 視覚言語モデルは強化学習のためのゼロショット・リワードモデルである
Authors: Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、報酬関数を手動で指定するか、あるいは大量のフィードバックから報酬モデルを学ぶことを必要とする。本稿では,事前学習された視覚言語モデル (VLM) をゼロショット報酬モデル (RM) として用いて,自然言語によるタスクの特定を行う。
参考スコア（独自算出の注目度）: 12.628697648945298
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) requires either manually specifying a reward function, which is often infeasible, or learning a reward model from a large amount of human feedback, which is often very expensive. We study a more sample-efficient alternative: using pretrained vision-language models (VLMs) as zero-shot reward models (RMs) to specify tasks via natural language. We propose a natural and general approach to using VLMs as reward models, which we call VLM-RMs. We use VLM-RMs based on CLIP to train a MuJoCo humanoid to learn complex tasks without a manually specified reward function, such as kneeling, doing the splits, and sitting in a lotus position. For each of these tasks, we only provide a single sentence text prompt describing the desired task with minimal prompt engineering. We provide videos of the trained agents at: https://sites.google.com/view/vlm-rm. We can improve performance by providing a second "baseline" prompt and projecting out parts of the CLIP embedding space irrelevant to distinguish between goal and baseline. Further, we find a strong scaling effect for VLM-RMs: larger VLMs trained with more compute and data are better reward models. The failure modes of VLM-RMs we encountered are all related to known capability limitations of current VLMs, such as limited spatial reasoning ability or visually unrealistic environments that are far off-distribution for the VLM. We find that VLM-RMs are remarkably robust as long as the VLM is large enough. This suggests that future VLMs will become more and more useful reward models for a wide range of RL applications.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、しばしば実現不可能な報酬関数を手動で指定することや、大量のフィードバックから報酬モデルを学ぶことを必要とする。本稿では,事前学習された視覚言語モデル (VLM) をゼロショット報酬モデル (RM) として用いて,自然言語によるタスクの特定を行う。本稿では,VLMを報酬モデルとして用いるための,自然かつ汎用的なアプローチを提案し,これをVLM-RMと呼ぶ。 CLIPをベースとしたVLM-RMを使用して、MuJoCoヒューマノイドをトレーニングし、ひざまずいて、スプリットを行い、ロータス位置に座っているような、手動で特定された報酬関数なしで複雑なタスクを学習する。これらのタスクのそれぞれに対して、最小限のプロンプトエンジニアリングで所望のタスクを記述する1つのテキストプロンプトのみを提供する。トレーニングされたエージェントのビデオは、https://sites.google.com/view/vlm-rm.comで公開しています。第二の"ベースライン"プロンプトを提供し、目標とベースラインの区別に無関係にCLIP埋め込みスペースの一部を投影することで、パフォーマンスを向上させることができる。さらに、より多くの計算とデータで訓練されたより大きなVLMはより良い報酬モデルである。私たちが遭遇したVLM-RMの障害モードは、空間的推論能力の制限や、VLMにとって遠く離れた視覚的非現実的な環境など、現在のVLMの既知の能力制限と関係している。 VLM-RMは、VLMが十分に大きい限り、非常に頑丈である。これは、将来のVLMがより広範囲のRLアプリケーションに対してより有用な報酬モデルになることを示唆している。

関連論文リスト

Small-Large Collaboration: Training-efficient Concept Personalization for Large VLM using a Meta Personalized Small VLM [27.081774497698667]
大規模VLMパーソナライゼーションのためのSLC(Small-Large Collaboration)という新しい協調フレームワークを提案する。我々は、小型VLMの幻覚を防止し、テストタイムリフレクション戦略を開発する。私たちの知る限りでは、これはオープンソースとクローズドソースの大規模VLMの両方をサポートする最初のトレーニング効率の高いフレームワークです。
論文参考訳（メタデータ） (2025-08-10T09:24:31Z)
VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making [45.02997774119763]
視覚言語モデル(VLM)は、大規模言語モデル(LLM)をマルチモーダルデータに拡張する。我々の研究は、オフラインからオンラインへの強化学習(RL)の観点から、これらの課題にアプローチする。
論文参考訳（メタデータ） (2025-05-06T04:51:57Z)
Preference VLM: Leveraging VLMs for Scalable Preference-Based Reinforcement Learning [17.59802090014789]
視覚言語モデル(VLM)と選択的フィードバックを統合するフレームワークであるPrefVLMを紹介する。提案手法はVLMを利用して初期選好ラベルを生成する。メタワールド操作タスクの実験は、PrefVLMが最先端の手法に匹敵する成功率または優れた成功率を達成することを示した。
論文参考訳（メタデータ） (2025-02-03T18:50:15Z)
Mordal: Automated Pretrained Model Selection for Vision Language Models [4.339232569078834]
Mordalは自動マルチモーダルモデル検索フレームワークであり、手動で介入することなくユーザ定義タスクに最適なVLMを効率的に見つける。評価の結果,Mordalは最大8.9times$-$11.6times$低GPU時間を用いて,与えられた問題に対して最高のVLMを見つけることができることがわかった。
論文参考訳（メタデータ） (2025-02-01T00:41:29Z)
Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [52.763620660061115]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。我々は、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。提案手法は,NetHack Learning Environment の様々な課題にまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-30T13:52:43Z)
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文参考訳（メタデータ） (2024-10-21T17:58:20Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
Are Bigger Encoders Always Better in Vision Large Models? [21.797332686137203]
マルチモーダルな大言語モデル (MLLM) は、現実世界の応用において大きな可能性を示している。現在の主流パラダイム下での視覚言語モデル(VLM)のスケーリング傾向は、広く研究されていない。我々は,異なるエンコーダサイズと大言語モデル(LLM)サイズを用いて,MLLMの事前学習段階の実験を行う。
論文参考訳（メタデータ） (2024-08-01T15:05:42Z)
FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning [18.60627708199452]
オンライン強化学習(RL)における事前学習型視覚言語モデル(VLM)の活用について検討する。本稿ではまず,VLMをRLタスクの報酬として適用する際の報酬ミスアライメントの問題を同定する。ファジィVLM報酬支援RL(FuRL)という軽量微調整法を導入する。
論文参考訳（メタデータ） (2024-06-02T07:20:08Z)
An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文参考訳（メタデータ） (2024-05-27T15:01:23Z)
Code as Reward: Empowering Reinforcement Learning with VLMs [37.862999288331906]
本稿では,事前学習した視覚言語モデルから高密度報酬関数を生成するために,Code as Reward (VLM-CaR) というフレームワークを提案する。 VLM-CaRは、VLMを直接クエリする際の計算負担を大幅に削減する。このアプローチによって生成される高密度な報酬は、様々な離散的かつ連続的な環境において非常に正確であることを示す。
論文参考訳（メタデータ） (2024-02-07T11:27:45Z)
Large Language Models are Visual Reasoning Coordinators [144.67558375045755]
視覚的推論のために複数の視覚言語モデルを協調する新しいパラダイムを提案する。提案手法は,視覚的質問応答における最先端性能を実現するため,命令チューニングの変種であるCola-FTを提案する。また,テキスト内学習の変種であるCola-Zeroは,ゼロおよび少数ショット設定で競合性能を示すことを示す。
論文参考訳（メタデータ） (2023-10-23T17:59:31Z)
Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文参考訳（メタデータ） (2023-08-23T17:37:51Z)
Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。 CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文参考訳（メタデータ） (2023-05-29T11:03:59Z)
Reinforcement Learning Friendly Vision-Language Model for Minecraft [31.863271032186038]
クロスモーダルなコントラスト学習フレームワークであるCLIP4MCを提案する。オープンなタスクに対する本質的な報酬関数として機能する強化学習(RL)フレンドリな視覚言語モデル(VLM)を学習することを目的としている。提案手法は,ベースラインよりもRLタスクの性能がよいことを示す。
論文参考訳（メタデータ） (2023-03-19T05:20:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。