Fugu-MT 論文翻訳(概要): Vision-Language Models as a Source of Rewards

論文の概要: Vision-Language Models as a Source of Rewards

arxiv url: http://arxiv.org/abs/2312.09187v2
Date: Thu, 22 Feb 2024 01:44:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 18:11:34.023773
Title: Vision-Language Models as a Source of Rewards
Title（参考訳）: 報酬源としての視覚言語モデル
Authors: Kate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rockt\"aschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang
Abstract要約: 強化学習エージェントの報酬源として市販の視覚言語モデル(VLM)の有効性を検討する。様々な言語目標の視覚的達成に対する報酬は、CLIPファミリーのモデルから導き出すことができ、様々な言語目標を達成するためのRLエージェントの訓練に使用されることを示す。
参考スコア（独自算出の注目度）: 61.84627160507341
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Building generalist agents that can accomplish many goals in rich open-ended environments is one of the research frontiers for reinforcement learning. A key limiting factor for building generalist agents with RL has been the need for a large number of reward functions for achieving different goals. We investigate the feasibility of using off-the-shelf vision-language models, or VLMs, as sources of rewards for reinforcement learning agents. We show how rewards for visual achievement of a variety of language goals can be derived from the CLIP family of models, and used to train RL agents that can achieve a variety of language goals. We showcase this approach in two distinct visual domains and present a scaling trend showing how larger VLMs lead to more accurate rewards for visual goal achievement, which in turn produces more capable RL agents.
Abstract（参考訳）: 豊かなオープンエンド環境で多くの目標を達成できる汎用エージェントの構築は、強化学習のための研究フロンティアの1つである。 RLを用いた一般エージェント構築の鍵となる制限要因は、異なる目標を達成するために多数の報酬関数が必要であることである。本研究は,市販の視覚言語モデル(vlms)を強化学習エージェントの報酬源として利用する可能性を検討する。様々な言語目標の視覚的達成に対する報酬は、CLIPファミリーのモデルから導き出すことができ、様々な言語目標を達成するためのRLエージェントの訓練に使用されることを示す。このアプローチを2つの異なる視覚領域で示し、より大きなVLMが視覚目標達成に対してより正確な報酬をもたらすかを示すスケーリング傾向を示し、それによってより有能なRLエージェントを生成する。

関連論文リスト

GoalLadder: Incremental Goal Discovery with Vision-Language Models [38.35578010611503]
視覚環境における単一言語命令からRLエージェントを学習する新しい手法を提案する。 GoalLadderは、自然言語で指定されたタスクの完了にエージェントを近づける状態の漸進的な発見で動作する。以前の作業とは異なり、GoalLadderはVLMのフィードバックを完全に信頼していない。
論文参考訳（メタデータ） (2025-06-19T15:28:27Z)
Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2025-06-08T16:48:42Z)
One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。 V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文参考訳（メタデータ） (2025-05-23T17:41:14Z)
ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-04-16T21:45:32Z)
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。 VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文参考訳（メタデータ） (2025-04-10T10:05:15Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Visual Grounding for Object-Level Generalization in Reinforcement Learning [35.39214541324909]
自然言語命令に従うエージェントにとって、一般化は重要な課題である。視覚言語モデル(VLM)を用いて視覚的グラウンド化を行い,その知識を強化学習に伝達する。我々の本質的な報酬は、挑戦的なスキル学習のパフォーマンスを著しく向上させることを示す。
論文参考訳（メタデータ） (2024-08-04T06:34:24Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
OCALM: Object-Centric Assessment with Language Models [33.10137796492542]
本稿では,言語モデルを用いたオブジェクト指向アセスメント(OCALM)を提案し,強化学習エージェントに対して本質的に解釈可能な報酬関数を導出する。 OCALMは、リレーショナルな概念に焦点を当てた報酬関数を導出するために、言語モデルの広範な世界知識を使用する。
論文参考訳（メタデータ） (2024-06-24T15:57:48Z)
World Models with Hints of Large Language Models for Goal Achieving [56.91610333715712]
強化学習は、長期のタスクやスパース目標に直面して苦労する。人間の認知にインスパイアされた新しいマルチモーダルモデルベースRLアプローチDreaming with Large Language Models (M.DLL.M)を提案する。
論文参考訳（メタデータ） (2024-06-11T15:49:08Z)
RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文参考訳（メタデータ） (2024-02-06T04:06:06Z)
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。強力な視覚能力を備え、ViT-22Bの代替となる。
論文参考訳（メタデータ） (2023-12-21T18:59:31Z)
Large Language Models are Visual Reasoning Coordinators [144.67558375045755]
視覚的推論のために複数の視覚言語モデルを協調する新しいパラダイムを提案する。提案手法は,視覚的質問応答における最先端性能を実現するため,命令チューニングの変種であるCola-FTを提案する。また,テキスト内学習の変種であるCola-Zeroは,ゼロおよび少数ショット設定で競合性能を示すことを示す。
論文参考訳（メタデータ） (2023-10-23T17:59:31Z)
Augmenting Autotelic Agents with Large Language Models [24.16977502082188]
言語モデル拡張オートテリックエージェント(LMA3)を導入する。 LMA3は多様で抽象的で人間に関連する目標の表現、生成、学習をサポートする。 LMA3エージェントはタスクに依存しないテキストベースの環境において,多種多様なスキルを習得する。
論文参考訳（メタデータ） (2023-05-21T15:42:41Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。