論文の概要: M$^3$Prune: Hierarchical Communication Graph Pruning for Efficient Multi-Modal Multi-Agent Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2511.19969v1
- Date: Tue, 25 Nov 2025 06:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.302259
- Title: M$^3$Prune: Hierarchical Communication Graph Pruning for Efficient Multi-Modal Multi-Agent Retrieval-Augmented Generation
- Title(参考訳): M$^3$Prune: 効率的なマルチモーダルマルチエージェント検索生成のための階層型通信グラフプルーニング
- Authors: Weizi Shao, Taolin Zhang, Zijie Zhou, Chen Chen, Chengyu Wang, Xiaofeng He,
- Abstract要約: 本稿では,M$3$Prune と呼ばれる新しいマルチモーダルマルチエージェント階層型通信グラフ PRUNing フレームワークを提案する。
当社のフレームワークは,タスクパフォーマンスとトークンオーバーヘッドの最適バランスを達成するために,さまざまなモダリティをまたいだ冗長なエッジを排除します。
本手法はシングルエージェントとロバストマルチエージェントのmRAGシステムにおいて一貫して性能を向上する。
- 参考スコア(独自算出の注目度): 18.091284320771006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in multi-modal retrieval-augmented generation (mRAG), which enhance multi-modal large language models (MLLMs) with external knowledge, have demonstrated that the collective intelligence of multiple agents can significantly outperform a single model through effective communication. Despite impressive performance, existing multi-agent systems inherently incur substantial token overhead and increased computational costs, posing challenges for large-scale deployment. To address these issues, we propose a novel Multi-Modal Multi-agent hierarchical communication graph PRUNING framework, termed M$^3$Prune. Our framework eliminates redundant edges across different modalities, achieving an optimal balance between task performance and token overhead. Specifically, M$^3$Prune first applies intra-modal graph sparsification to textual and visual modalities, identifying the edges most critical for solving the task. Subsequently, we construct a dynamic communication topology using these key edges for inter-modal graph sparsification. Finally, we progressively prune redundant edges to obtain a more efficient and hierarchical topology. Extensive experiments on both general and domain-specific mRAG benchmarks demonstrate that our method consistently outperforms both single-agent and robust multi-agent mRAG systems while significantly reducing token consumption.
- Abstract(参考訳): MLLM(Multi-modal Large Language Model)を外部知識で強化するmRAG(Multi-modal Search-augmented Generation)の最近の進歩は、複数のエージェントの集合的知能が効果的なコミュニケーションによって単一モデルを大幅に上回ることを示した。
性能は優れていたが、既存のマルチエージェントシステムは本質的に相当なトークンオーバーヘッドと計算コストを発生させ、大規模展開の難しさを浮き彫りにした。
これらの問題に対処するために,M$^3$Prune と呼ばれる新しいマルチモーダルマルチエージェント階層型通信グラフ PRUNing フレームワークを提案する。
当社のフレームワークは,タスクパフォーマンスとトークンオーバーヘッドの最適バランスを達成するために,さまざまなモダリティをまたいだ冗長なエッジを排除します。
具体的には、M$^3$Pruneはまず、テキストと視覚のモダリティにモーダル内グラフスペーシフィケーションを適用し、タスクの解決に最も重要なエッジを特定する。
その後、これらのキーエッジを用いて動的通信トポロジを構築し、モーダルグラフ間スカラー化を行う。
最後に、より効率的で階層的な位相を求めるために、冗長なエッジを段階的に創り出す。
一般およびドメイン固有のmRAGベンチマークにおいて,本手法はトークン消費を著しく低減しつつ,単一エージェントと堅牢なマルチエージェントmRAGシステムの両方で一貫した性能を発揮することを示した。
関連論文リスト
- Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - MAS$^2$: Self-Generative, Self-Configuring, Self-Rectifying Multi-Agent Systems [40.44248136759827]
マルチエージェントシステムを自律的に設計するマルチエージェントシステムであるMAS$2$を紹介する。
MAS$2$は、最先端のMASに対して最大19.6%のパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (2025-09-29T06:20:10Z) - Adaptive Graph Pruning for Multi-Agent Communication [14.18447472314079]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,様々なタスクにおいて顕著な性能を示した。
本稿では,タスク適応型マルチエージェント協調フレームワークであるAdaptive Graph Pruning (AGP)を提案する。
論文 参考訳(メタデータ) (2025-06-03T14:46:00Z) - Cut the Crap: An Economical Communication Pipeline for LLM-based Multi-Agent Systems [42.137278756052595]
$texttAgentPrune$は、メインストリームのマルチエージェントシステムにシームレスに統合できる。
textbf(I)は、既存のマルチエージェントフレームワークとシームレスに統合され、28.1%sim72.8%downarrow$トークンの削減を行う。
textbf(III)は2種類のエージェントベースの敵攻撃に対して3.5%sim10.8%uparrow$パフォーマンス向上で防御に成功した。
論文 参考訳(メタデータ) (2024-10-03T14:14:31Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。