論文の概要: Best-of-Q: Improving VLM agents with Q-function Action Ranking at Inference
- arxiv url: http://arxiv.org/abs/2601.22701v1
- Date: Fri, 30 Jan 2026 08:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.31952
- Title: Best-of-Q: Improving VLM agents with Q-function Action Ranking at Inference
- Title(参考訳): Q-of-Q:推論におけるQ-function Action RankingによるVLMエージェントの改善
- Authors: Emilien Biré, María Santos, Kai Yuan,
- Abstract要約: VLM(Vision-Language Models)は、エージェントがデジタル環境で自律的に操作するための強力なバックボーンとなっている。
これらのモデルは、Webのような高速に変化する環境に適応できない。
本稿では,エージェントVLMポリシーを政策再訓練なしで推論時に拡張するための新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 4.943575742796223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have become powerful backbones for agents to autonomously operate in digital environments like the web and operating systems. However, these models suffer from inadaptability to fast-changing environments like the web, which can be alleviated by fine-tuning requiring expansive model training and data collection. In this work, we introduce a novel paradigm for enhancing agentic VLM policies at inference without policy retraining. Fundamentally, our approach decouples the VLM's role as a high-capacity action proposer from the final action selection mechanism. We keep the VLM policy frozen and use it to generate a set of candidate actions for a given state. Then, a lightweight, offline-trained Q-function reranks these candidates, and the agent executes the action with the highest estimated value. The main contribution is to apply the Q-function directly during inference for immediate policy improvement, and not offline to relabel data for policy retraining. We demonstrate on the academic WebVoyager benchmark that our method significantly boosts agent success rates, improving a Qwen2.5-VL-7B agent from 38.8% to 55.7% and a proprietary GPT-4.1 agent from 82.4% to 88.8%.
- Abstract(参考訳): VLM(Vision-Language Models)は、エージェントがWebやオペレーティングシステムのようなデジタル環境で自律的に動作するための強力なバックボーンとなっている。
しかし、これらのモデルは、Webのような高速に変化する環境への不適応性に悩まされ、細調整が必要なモデルトレーニングとデータ収集によって軽減される。
本研究では,エージェントVLMポリシーを政策再訓練なしで推論時に拡張するための新しいパラダイムを提案する。
提案手法は,VLMが最終動作選択機構から高容量アクションプロジェクタとしての役割を分離するものである。
我々は、VLMポリシーを凍結させ、それを特定の状態に対する一連の候補アクションを生成するために使用します。
そして、軽量でオフラインで訓練されたQ-関数がこれらの候補をリランクし、エージェントは最も推定値の高いアクションを実行する。
主な貢献は、即時政策改善のための推論中にQ-関数を直接適用することであり、政策再訓練のためのラテラブルデータにはオフラインではない。
学術的なWebVoyagerベンチマークにおいて、我々の方法はエージェントの成功率を大幅に向上させ、Qwen2.5-VL-7Bエージェントを38.8%から55.7%に改善し、プロプライエタリなGPT-4.1エージェントを82.4%から88.8%に改善することを示した。
関連論文リスト
- Demonstration-Free Robotic Control via LLM Agents [0.0]
FAEA (Frontier Agent as Embodied Agent) を導入する。
FAEAは、特権環境の状態アクセスにより、それぞれ84.9%、85.7%、96%の成功率を達成した。
この結果から,汎用エージェントは,熟考的タスクレベルの計画に支配される操作タスクのクラスに十分であることが示唆された。
論文 参考訳(メタデータ) (2026-01-28T07:49:35Z) - Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents [40.73340280747757]
大規模言語モデル(LLM)におけるReAct能力は、現代のエージェントシステムの基盤となっている。
マルチステップ実行計画を作成することでエージェントのパフォーマンスを向上させる新しいアプローチであるPre-Actを導入する。
我々のアプローチは会話エージェントと非会話エージェントの両方に適用できる。
論文 参考訳(メタデータ) (2025-05-15T05:17:47Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - Digi-Q: Learning Q-Value Functions for Training Device-Control Agents [73.60512136881279]
Digi-QはVLMベースのアクション値Q関数を訓練し、エージェントポリシーを抽出する。
Digi-Qは、Android-in-the-Wildのユーザスケールデバイス制御タスクにおいて、いくつかの従来手法より優れている。
論文 参考訳(メタデータ) (2025-02-13T18:55:14Z) - Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models [22.43652231336764]
本稿では,タスク関連Q値モデルを用いて行動選択を導出する手法を提案する。
その結果,Q値モデルの性能は大幅に向上した。
論文 参考訳(メタデータ) (2024-09-14T07:32:49Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。