論文の概要: Quantifying Divergence in Inter-LLM Communication Through API Retrieval and Ranking
- arxiv url: http://arxiv.org/abs/2604.22760v1
- Date: Mon, 09 Mar 2026 20:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.157901
- Title: Quantifying Divergence in Inter-LLM Communication Through API Retrieval and Ranking
- Title(参考訳): API検索とランク付けによるLLM間通信における多様性の定量化
- Authors: Eyhab Al-Masri,
- Abstract要約: 大規模言語モデル(LLM)は、複雑なタスクを実行するために外部APIを優先する自律的なエージェントとして、ますます運用されている。
本稿では,LLM間の差異を定量化する統一ベンチマークフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly operate as autonomous agents that reason over external APIs to perform complex tasks. However, their reliability and agreement remain poorly characterized. We present a unified benchmarking framework to quantify inter-LLM divergence, defined as the extent to which models differ in API discovery and ranking under identical tasks. Across 15 canonical API domains and 5 major model families, we measure pairwise and group-level agreement using set-, rank-, and consensus-based metrics including Average Overlap, Jaccard similarity, Rank-Biased Overlap, Kendall's tau, Kendall's W, and Cronbach's alpha. Results show moderate overall alignment (AO about 0.50, tau about 0.45) but strong domain dependence: structured tasks (Weather, Speech-to-Text) are stable, while open-ended tasks (Sentiment Analysis) exhibit substantially higher divergence. Volatility and consensus analyses reveal that coherence clusters around data-bound domains and degrades for abstract reasoning tasks. These insights enable reliability-aware orchestration in multi-agent systems, where consensus weighting can improve coordination among heterogeneous LLMs. Beyond performance benchmarking, our results reveal systematic failure modes in multi-agent LLM coordination, where apparent agreement can mask instability in action-relevant rankings. This hidden divergence poses a pre-deployment safety risk and motivates diagnostic benchmarks for early detection.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑なタスクを実行するために外部APIを優先する自律的なエージェントとして、ますます運用されている。
しかし、その信頼性と合意はいまだに不十分である。
本稿では,LLM間の差異を定量化する統一ベンチマークフレームワークを提案する。
15の標準APIドメインと5つの主要なモデルファミリにわたって、Average Overlap、Jaccardの類似性、Rランクバイアスオーバーラップ、Kendallのtau、KendallのW、Cronbachのαといった、セット、ランク、コンセンサスベースのメトリクスを使用して、ペアワイズ、グループレベルのアグリーメントを測定します。
結果は、中程度の全体的なアライメント(AO約0.50、Tau約0.45)を示すが、強いドメイン依存:構造化タスク(Weather, Speech-to-Text)は安定であり、オープンエンドタスク(Sentiment Analysis)は、かなり高いばらつきを示す。
ボラティリティとコンセンサス分析により、データバウンドドメインを囲むコヒーレンスクラスタが抽象的推論タスクのために分解されることが明らかになった。
これらの知見により、マルチエージェントシステムにおける信頼性を考慮したオーケストレーションが可能となり、コンセンサス重み付けは異種LLM間の協調を改善することができる。
性能ベンチマークの他に,動作関連ランキングの不安定性を隠蔽できるマルチエージェントLLM調整における系統的故障モードが報告された。
この隠れた分岐は、デプロイ前の安全性リスクをもたらし、早期検出のための診断ベンチマークを動機付けている。
関連論文リスト
- How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles [46.63622714488747]
共有事前学習データ、蒸留、アライメントパイプラインは、隠れた振る舞い依存、潜伏絡みを誘導することができる。
実際には、これは相関した推論パターンと同期された障害として現れます。
ブラックボックス言語モデル間の行動絡みを監査するための統計的枠組みを開発する。
論文 参考訳(メタデータ) (2026-04-08T23:32:06Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Stochasticity in Agentic Evaluations: Quantifying Inconsistency with Intraclass Correlation [0.7418138958218443]
クラス内相関係数(ICC)は、測定科学から分散を特徴づける指標である。
ICCは観測されたばらつきを、問合せ間分散(タスク困難)と問合せ内分散(エージェント不整合)に分解する
我々は、ICCが構造化タスクのn=8-16と複雑な推論のn>=32で収束し、実践者がエビデンスベースの再サンプリング予算を設定することを実証した。
論文 参考訳(メタデータ) (2025-12-07T07:58:13Z) - Harnessing Consistency for Robust Test-Time LLM Ensemble [88.55393815158608]
CoREは、堅牢なLLMアンサンブルにモデル一貫性を利用するプラグイン・アンド・プレイ技術である。
トークンレベルの一貫性は、ダウンウェイト不確実なトークンにローパスフィルタを適用することで、きめ細かい不一致を捕捉する。
モデルレベルの一貫性は、自己自信の高いモデル出力を促進することで、グローバルな合意をモデル化する。
論文 参考訳(メタデータ) (2025-10-12T04:18:45Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Collective Reasoning Among LLMs: A Framework for Answer Validation Without Ground Truth [0.0]
いくつかの先進的な大規模言語モデルが複雑で博士レベルの確率問題を生成・解き出す新しいアプローチを導入する。
本研究は, 多様なモデル間の合意が, アウトプットの信頼性を如何に示すかに焦点を当てる。
論文 参考訳(メタデータ) (2025-02-28T06:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。