論文の概要: VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making
- arxiv url: http://arxiv.org/abs/2505.03181v1
- Date: Tue, 06 May 2025 04:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.214778
- Title: VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making
- Title(参考訳): VLM Q-Learning:対話型意思決定のための視覚言語モデル
- Authors: Jake Grigsby, Yuke Zhu, Michael Ryoo, Juan Carlos Niebles,
- Abstract要約: 視覚言語モデル(VLM)は、大規模言語モデル(LLM)をマルチモーダルデータに拡張する。
我々の研究は、オフラインからオンラインへの強化学習(RL)の観点から、これらの課題にアプローチする。
- 参考スコア(独自算出の注目度): 45.02997774119763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research looks to harness the general knowledge and reasoning of large language models (LLMs) into agents that accomplish user-specified goals in interactive environments. Vision-language models (VLMs) extend LLMs to multi-modal data and provide agents with the visual reasoning necessary for new applications in areas such as computer automation. However, agent tasks emphasize skills where accessible open-weight VLMs lag behind their LLM equivalents. For example, VLMs are less capable of following an environment's strict output syntax requirements and are more focused on open-ended question answering. Overcoming these limitations requires supervised fine-tuning (SFT) on task-specific expert demonstrations. Our work approaches these challenges from an offline-to-online reinforcement learning (RL) perspective. RL lets us fine-tune VLMs to agent tasks while learning from the unsuccessful decisions of our own model or more capable (larger) models. We explore an off-policy RL solution that retains the stability and simplicity of the widely used SFT workflow while allowing our agent to self-improve and learn from low-quality datasets. We demonstrate this technique with two open-weight VLMs across three multi-modal agent domains.
- Abstract(参考訳): 近年の研究では,大規模言語モデル(LLM)の一般的な知識と推論を,対話型環境におけるユーザ特定目標を達成するエージェントに活用することを目的としている。
視覚言語モデル(VLM)は、LLMをマルチモーダルデータに拡張し、コンピュータ自動化などの分野における新しいアプリケーションに必要な視覚的推論を提供する。
しかしエージェントタスクは、オープンウェイトなVLMがLLMと同等の能力に遅れるようなスキルを強調している。
例えば、VLMは環境の厳密な出力構文要求に従わず、よりオープンな質問応答に重点を置いている。
これらの制限を克服するには、タスク固有の専門家のデモンストレーションを監督された微調整(SFT)する必要がある。
我々の研究は、オフラインからオンラインへの強化学習(RL)の観点から、これらの課題にアプローチする。
RLは、自分たちのモデルやより有能な(より大きな)モデルの失敗決定から学びながら、タスクを処理するための微調整VLMを可能にします。
我々は、広く使われているSFTワークフローの安定性とシンプルさを維持しつつ、エージェントが低品質のデータセットから自己改善し、学習できるようにする、非政治的なRLソリューションを探究する。
本手法は3つのマルチモーダルエージェント領域にまたがる2つのオープンウェイトVLMを用いて実証する。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - O3D: Offline Data-driven Discovery and Distillation for Sequential
Decision-Making with Large Language Models [16.91329676173649]
大規模言語モデル(LLM)を改善するために,オフラインデータ駆動型ディスカバリ・蒸留(O3D)を提案する。
O3Dは、再利用可能なスキルを自動的に発見し、オフラインインタラクションデータに基づいて、複数のタスクにまたがる一般化可能な知識を蒸留する。
2つの対話型意思決定ベンチマーク (ALFWorld と WebShop) による実証結果から,O3D が LLM の意思決定能力を著しく向上できることが確認された。
論文 参考訳(メタデータ) (2023-10-22T20:28:33Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。