論文の概要: Modality-Native Routing in Agent-to-Agent Networks: A Multimodal A2A Protocol Extension
- arxiv url: http://arxiv.org/abs/2604.12213v1
- Date: Tue, 14 Apr 2026 02:44:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.201614
- Title: Modality-Native Routing in Agent-to-Agent Networks: A Multimodal A2A Protocol Extension
- Title(参考訳): エージェント-エージェント間のネットワークにおけるモダリティ-負のルーティング:マルチモーダルA2Aプロトコル拡張
- Authors: Vasundra Srinivasan,
- Abstract要約: 本稿では,Agent-to-Agentネットワークにおけるモダリティネイティブルーティングにより,テキストブートネックベースラインよりもタスクの精度を20パーセント向上することを示す。
本稿では,A2A上のアーキテクチャ層であるMMA2Aについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Preserving multimodal signals across agent boundaries is necessary for accurate cross-modal reasoning, but it is not sufficient. We show that modality-native routing in Agent-to-Agent (A2A) networks improves task accuracy by 20 percentage points over text-bottleneck baselines, but only when the downstream reasoning agent can exploit the richer context that native routing preserves. An ablation replacing LLM-backed reasoning with keyword matching eliminates the accuracy gap entirely (36% vs. 36%), establishing a two-layer requirement: protocol-level routing must be paired with capable agent-level reasoning for the benefit to materialize. We present MMA2A, an architecture layer atop A2A that inspects Agent Card capability declarations to route voice, image, and text parts in their native modality. On CrossModal-CS, a controlled 50-task benchmark with the same LLM backend, same tasks, and only the routing path varying, MMA2A achieves 52% task completion accuracy versus 32% for the text-bottleneck baseline (95% bootstrap CI on $Δ$TCA: [8, 32] pp; McNemar's exact $p = 0.006$). Gains concentrate on vision-dependent tasks: product defect reports improve by +38.5 pp and visual troubleshooting by +16.7 pp. This accuracy gain comes at a $1.8\times$ latency cost from native multimodal processing. These results suggest that routing is a first-order design variable in multi-agent systems, as it determines the information available for downstream reasoning.
- Abstract(参考訳): エージェント境界を越えたマルチモーダル信号の保存は、正確なクロスモーダル推論には必要だが、十分ではない。
エージェント・ツー・エージェント(A2A)ネットワークにおけるモーダリティ・ネイティブなルーティングは,テキスト・ブートネックベースラインよりもタスクの精度を20パーセント向上するが,ダウンストリーム推論エージェントがネイティブなルーティングが持つよりリッチなコンテキストを活用できる場合にのみ有効であることを示す。
LLM-backed reasoningをキーワードマッチングに置き換えたアブレーションは、精度のギャップを完全に排除する(36% vs. 36%)。
本稿では,A2A上のアーキテクチャ層であるMMA2Aについて述べる。
同じLLMバックエンド、同じタスク、ルーティングパスのみを備えた50タスクのベンチマークであるCrossModal-CSでは、MMA2Aは52%のタスク完了精度と32%のテキストブートネックベースラインを達成した(95%のブートストラップCIは$Δ$TCA: [8, 32] pp; McNemarの正確な$p = 0.006$)。
製品欠陥報告は+38.5 pp、視覚的トラブルシューティングは+16.7 ppに改善した。
この精度の上昇は、ネイティブのマルチモーダル処理によるレイテンシコストが1.8\times$である。
これらの結果から,ルーティングは下流の推論に利用可能な情報を決定するため,マルチエージェントシステムにおける一階設計変数であることが示唆された。
関連論文リスト
- Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Learning When to Switch: Adaptive Policy Selection via Reinforcement Learning [0.0]
この研究は、エージェントが系統的な探索(カバレッジ)と目標指向のパスフィニング(収束)を動的に移行してタスクのパフォーマンスを向上させる方法を示す。
固定閾値アプローチとは異なり、エージェントはQラーニングを使用して、カバレッジパーセンテージと目標までの距離に基づいてスイッチング行動に適応する。
その結果、完了時間が23~55%改善され、ランタイムの分散が83%減少し、最悪のシナリオでは71%改善した。
論文 参考訳(メタデータ) (2025-12-06T02:50:32Z) - Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning [40.6234318894435]
大規模言語モデルは、推論中心のLLMとエージェントのLLMの2つのファミリーに分けられた。
この分割は、基本的に異なるトレーニング目標から生じ、単純なクエリに対して不一致の強度と非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル (A$2$FM) を提案する。
論文 参考訳(メタデータ) (2025-10-13T17:08:25Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。