論文の概要: Best-of-Q: Improving VLM agents with Q-function Action Ranking at Inference
- arxiv url: http://arxiv.org/abs/2601.22701v1
- Date: Fri, 30 Jan 2026 08:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.31952
- Title: Best-of-Q: Improving VLM agents with Q-function Action Ranking at Inference
- Title(参考訳): Q-of-Q:推論におけるQ-function Action RankingによるVLMエージェントの改善
- Authors: Emilien Biré, María Santos, Kai Yuan,
- Abstract要約: VLM(Vision-Language Models)は、エージェントがデジタル環境で自律的に操作するための強力なバックボーンとなっている。
これらのモデルは、Webのような高速に変化する環境に適応できない。
本稿では,エージェントVLMポリシーを政策再訓練なしで推論時に拡張するための新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 4.943575742796223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have become powerful backbones for agents to autonomously operate in digital environments like the web and operating systems. However, these models suffer from inadaptability to fast-changing environments like the web, which can be alleviated by fine-tuning requiring expansive model training and data collection. In this work, we introduce a novel paradigm for enhancing agentic VLM policies at inference without policy retraining. Fundamentally, our approach decouples the VLM's role as a high-capacity action proposer from the final action selection mechanism. We keep the VLM policy frozen and use it to generate a set of candidate actions for a given state. Then, a lightweight, offline-trained Q-function reranks these candidates, and the agent executes the action with the highest estimated value. The main contribution is to apply the Q-function directly during inference for immediate policy improvement, and not offline to relabel data for policy retraining. We demonstrate on the academic WebVoyager benchmark that our method significantly boosts agent success rates, improving a Qwen2.5-VL-7B agent from 38.8% to 55.7% and a proprietary GPT-4.1 agent from 82.4% to 88.8%.
- Abstract(参考訳): VLM(Vision-Language Models)は、エージェントがWebやオペレーティングシステムのようなデジタル環境で自律的に動作するための強力なバックボーンとなっている。
しかし、これらのモデルは、Webのような高速に変化する環境への不適応性に悩まされ、細調整が必要なモデルトレーニングとデータ収集によって軽減される。
本研究では,エージェントVLMポリシーを政策再訓練なしで推論時に拡張するための新しいパラダイムを提案する。
提案手法は,VLMが最終動作選択機構から高容量アクションプロジェクタとしての役割を分離するものである。
我々は、VLMポリシーを凍結させ、それを特定の状態に対する一連の候補アクションを生成するために使用します。
そして、軽量でオフラインで訓練されたQ-関数がこれらの候補をリランクし、エージェントは最も推定値の高いアクションを実行する。
主な貢献は、即時政策改善のための推論中にQ-関数を直接適用することであり、政策再訓練のためのラテラブルデータにはオフラインではない。
学術的なWebVoyagerベンチマークにおいて、我々の方法はエージェントの成功率を大幅に向上させ、Qwen2.5-VL-7Bエージェントを38.8%から55.7%に改善し、プロプライエタリなGPT-4.1エージェントを82.4%から88.8%に改善することを示した。
関連論文リスト
- Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents [40.73340280747757]
大規模言語モデル(LLM)におけるReAct能力は、現代のエージェントシステムの基盤となっている。
マルチステップ実行計画を作成することでエージェントのパフォーマンスを向上させる新しいアプローチであるPre-Actを導入する。
我々のアプローチは会話エージェントと非会話エージェントの両方に適用できる。
論文 参考訳(メタデータ) (2025-05-15T05:17:47Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Digi-Q: Learning Q-Value Functions for Training Device-Control Agents [73.60512136881279]
Digi-QはVLMベースのアクション値Q関数を訓練し、エージェントポリシーを抽出する。
Digi-Qは、Android-in-the-Wildのユーザスケールデバイス制御タスクにおいて、いくつかの従来手法より優れている。
論文 参考訳(メタデータ) (2025-02-13T18:55:14Z) - Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models [22.43652231336764]
本稿では,タスク関連Q値モデルを用いて行動選択を導出する手法を提案する。
その結果,Q値モデルの性能は大幅に向上した。
論文 参考訳(メタデータ) (2024-09-14T07:32:49Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。