論文の概要: Rethinking Model Efficiency: Multi-Agent Inference with Large Models
- arxiv url: http://arxiv.org/abs/2604.04929v1
- Date: Mon, 06 Apr 2026 17:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.336493
- Title: Rethinking Model Efficiency: Multi-Agent Inference with Large Models
- Title(参考訳): モデル効率を再考する:大規模モデルを用いたマルチエージェント推論
- Authors: Sixun Dong, Juhua Hu, Steven Li, Wei Wen, Qi Qian,
- Abstract要約: 我々は、シミュレーションデータに基づいて、視覚言語モデル(VLM)の様々なコンポーネント間の遅延を包括的に解析する。
実験により、出力トークンが少ない大きなモデルは、長い出力シーケンスを持つ小さなモデルよりも効率的であることが示されている。
本稿では,大規模モデルを短い応答で保持するマルチエージェント推論フレームワークを提案するが,必要であれば,重要な推論トークンを小モデルから転送する。
- 参考スコア(独自算出の注目度): 23.878724608444145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most vision-language models (VLMs) apply a large language model (LLM) as the decoder, where the response tokens are generated sequentially through autoregression. Therefore, the number of output tokens can be the bottleneck of the end-to-end latency. However, different models may require vastly different numbers of output tokens to achieve comparable performance. In this work, we conduct a comprehensive analysis of the latency across different components of VLMs on simulated data. The experiment shows that a large model with fewer output tokens can be more efficient than a small model with a long output sequence. The empirical study on diverse real-world benchmarks confirms the observation that a large model can achieve better or comparable performance as a small model with significantly fewer output tokens. To leverage the efficiency of large models, we propose a multi-agent inference framework that keeps large models with short responses but transfers the key reasoning tokens from the small model when necessary. The comparison on benchmark tasks demonstrates that by reusing the reasoning tokens from small models, it can help approach the performance of a large model with its own reasoning, which confirms the effectiveness of our proposal.
- Abstract(参考訳): ほとんどの視覚言語モデル(VLM)はデコーダとして大きな言語モデル(LLM)を適用しており、応答トークンは自動回帰によって順次生成される。
したがって、出力トークンの数はエンドツーエンドのレイテンシのボトルネックになる可能性がある。
しかし、同等のパフォーマンスを達成するためには、異なるモデルが異なる数の出力トークンを必要とする可能性がある。
本研究では、シミュレーションデータに基づいて、VLMの異なるコンポーネント間での遅延の包括的解析を行う。
実験により、出力トークンが少ない大モデルは、長い出力シーケンスを持つ小さなモデルよりも効率的であることが示されている。
多様な実世界のベンチマークに関する実証的研究は、大きなモデルが、出力トークンが著しく少ない小さなモデルとして、より良い、または同等のパフォーマンスを達成できるという観察を裏付けている。
大規模モデルの効率性を活用するために,大規模モデルを短時間で保持するマルチエージェント推論フレームワークを提案するが,必要であれば重要推論トークンを小モデルから転送する。
ベンチマークタスクの比較は,小モデルからの推論トークンを再利用することで,大モデルの性能を独自の推論で評価し,提案手法の有効性を確認するのに役立つことを示す。
関連論文リスト
- Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - The Larger the Better? Improved LLM Code-Generation via Budget Reallocation [32.0844209512788]
大型言語モデル(LLM)は小型言語よりも優れているという考え方が一般的である。
両方のモデルが同じ予算の下で動作した場合、どうなるのか?
我々は、様々なサイズのコード生成LLMを分析し、70Bモデルを実行する場合と13Bモデルから5つの出力を生成する場合の比較を行う。
論文 参考訳(メタデータ) (2024-03-31T15:55:49Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。