論文の概要: SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning
- arxiv url: http://arxiv.org/abs/2603.23483v1
- Date: Tue, 24 Mar 2026 17:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.624698
- Title: SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning
- Title(参考訳): SpecEyes: 投機的知覚と計画によるエージェントマルチモーダルLCMの高速化
- Authors: Haoyu Huang, Jinfa Huang, Zhongwei Wan, Xiawu Zheng, Rongrong Ji, Jiebo Luo,
- Abstract要約: エージェント・マルチモーダル・大規模言語モデル(MLLM)は,反復的な視覚的ツールの実行によって顕著な推論能力を達成する。
しかし、カスケード認識、推論、ツール呼び出しループは、重要なシーケンシャルなオーバーヘッドをもたらす。
このオーバーヘッドはエージェントディープと呼ばれ、禁止されたレイテンシを発生させ、システムレベルのスループットを著しく制限します。
本稿では,エージェントレベルの投機的アクセラレーションフレームワークであるSpecEyesを提案する。
- 参考スコア(独自算出の注目度): 104.01865949020304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic multimodal large language models (MLLMs) (e.g., OpenAI o3 and Gemini Agentic Vision) achieve remarkable reasoning capabilities through iterative visual tool invocation. However, the cascaded perception, reasoning, and tool-calling loops introduce significant sequential overhead. This overhead, termed agentic depth, incurs prohibitive latency and seriously limits system-level concurrency. To this end, we propose SpecEyes, an agentic-level speculative acceleration framework that breaks this sequential bottleneck. Our key insight is that a lightweight, tool-free MLLM can serve as a speculative planner to predict the execution trajectory, enabling early termination of expensive tool chains without sacrificing accuracy. To regulate this speculative planning, we introduce a cognitive gating mechanism based on answer separability, which quantifies the model's confidence for self-verification without requiring oracle labels. Furthermore, we design a heterogeneous parallel funnel that exploits the stateless concurrency of the small model to mask the stateful serial execution of the large model, maximizing system throughput. Extensive experiments on V* Bench, HR-Bench, and POPE demonstrate that SpecEyes achieves 1.1-3.35x speedup over the agentic baseline while preserving or even improving accuracy (up to +6.7%), thereby boosting serving throughput under concurrent workloads.
- Abstract(参考訳): エージェント・マルチモーダル・大規模言語モデル(MLLM) (例: OpenAI o3 と Gemini Agentic Vision) は、反復的な視覚的ツールの実行によって顕著な推論能力を達成する。
しかし、カスケード認識、推論、ツール呼び出しループは、重要なシーケンシャルなオーバーヘッドをもたらす。
このオーバーヘッドはエージェントディープと呼ばれ、禁止されたレイテンシを発生させ、システムレベルの並行性を著しく制限する。
そこで本研究では,このシーケンシャルボトルネックを解消するエージェントレベルの投機的アクセラレーションフレームワークであるSpecEyesを提案する。
我々の重要な洞察は、軽量でツールフリーなMLLMは、実行経路を予測する投機的プランナーとして機能し、高価なツールチェーンを精度を犠牲にすることなく早期に終了できるということである。
この投機的プランニングを規制するために,回答分離性に基づく認知的ゲーティング機構を導入し,オラクルラベルを必要とせず,自己検証に対するモデルの自信を定量化する。
さらに,システムスループットを最大化しながら,大規模モデルのステートフルなシリアル実行を隠蔽するために,小型モデルのステートレス並行性を利用する異種並列カーネルを設計する。
V* Bench、HR-Bench、POPEの広範な実験により、SpecEyesはエージェントベースライン上で1.1~3.35倍のスピードアップを実現し、精度(+6.7%まで)を保留または改善し、同時処理時のスループットを向上した。
関連論文リスト
- Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents [31.08047797205678]
拡散大言語モデル(dLLLLM)は、本質的に並列な復号化機構とフレキシブルな生成パラダイムによって実現され、独特な効率性を示す。
サーチエージェントの急速な進歩にもかかわらず、その実践的展開は、1)チャレンジと呼ばれる基本的な制限によって制限される: マルチラウンド推論、ツール呼び出し、ツール応答の連続実行。
本稿では,dLLMに基づく検索エージェントの最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-03T09:12:08Z) - HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。
損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-16T07:37:23Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Reducing Latency of LLM Search Agent via Speculation-based Algorithm-System Co-Design [35.95362310928356]
LLMベースの検索エージェントは、高いパフォーマンスを実現するが、深刻なレイテンシーに悩まされる。
我々は憶測のレンズを通してこのボトルネックを再考する。
SPAgentは,検索エージェントにおける投機の役割を拡大し,レイテンシを低減するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-11-25T08:15:17Z) - Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference [11.957170239588535]
投機的復号化は、ドラフトモデルを使用して推測を加速する。
事前の方法は、ドラフトコストを部分的に削減するが、受け入れを低下させるか、スケーリングを制限するオーバーヘッドを導入する。
本稿では,遅延受容トレードオフを破る推論アルゴリズムであるMirror Speculative Decoding(Mirror-SD)を提案する。
論文 参考訳(メタデータ) (2025-10-15T05:22:57Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting [12.317709090608837]
SpecEEは投機的早期終了を伴う高速推論エンジンである。
SpecEEはクラウドとPCのシナリオでそれぞれLlama2-7Bで2.25倍と2.43倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-11T02:38:53Z) - TurboSpec: Closed-loop Speculation Control System for Optimizing LLM Serving Goodput [37.56866491624234]
大規模言語モデル (LLM) システムは、効率的なサービスを実現するために、同時ユーザー要求をバッチ化する。
本稿では,実行環境を自動的にプロファイリングする投機制御システムTurboSpecを提案する。
さまざまなワークロードとハードウェア構成にまたがって、その効果を実証します。
論文 参考訳(メタデータ) (2024-06-20T07:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。