論文の概要: Representational Collapse in Multi-Agent LLM Committees: Measurement and Diversity-Aware Consensus
- arxiv url: http://arxiv.org/abs/2604.03809v1
- Date: Sat, 04 Apr 2026 17:30:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.778838
- Title: Representational Collapse in Multi-Agent LLM Committees: Measurement and Diversity-Aware Consensus
- Title(参考訳): マルチエージェントLDM委員会における表象崩壊:測定と多様性を考慮した合意
- Authors: Dipkumar Patel,
- Abstract要約: マルチエージェントLDM委員会は、異なるロールプロンプトの下で同じモデルを複製し、多数決によってアウトプットを集約する。
それぞれのエージェントのチェーン・オブ・シークレットの論理を組み込んで、100 GSM8Kの質問に3つのQwen2.5-14Bのエージェントでペアの類似度を測る。
DALCは、埋め込み幾何学から多様性重量を計算するトレーニングフリーコンセンサスプロトコルであり、GSM8Kでは87%、トークンコストでは84%に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent LLM committees replicate the same model under different role prompts and aggregate outputs by majority vote, implicitly assuming that agents contribute complementary evidence. We embed each agent's chain-of-thought rationale and measure pairwise similarity: across 100 GSM8K questions with three Qwen2.5-14B agents, mean cosine similarity is 0.888 and effective rank is 2.17 out of 3.0, a failure mode we term representational collapse. DALC, a training-free consensus protocol that computes diversity weights from embedding geometry, reaches 87% on GSM8K versus 84% for self-consistency at 26% lower token cost. Ablation experiments reveal 1-3 point per-protocol run-to-run variance, confirm that hint sharing contributes more than diversity weighting alone, and show that encoder choice strongly modulates collapse severity (cosine 0.908 with mxbai versus 0.888 with nomic) and downstream accuracy. The more robust finding is that collapse is measurable, worsens on harder tasks, and that the choice of embedding proxy is a first-order design decision for any latent communication protocol.
- Abstract(参考訳): マルチエージェントLDM委員会は、異なる役割のプロンプトの下で同じモデルを複製し、多数決によってアウトプットを集約し、エージェントが補完的な証拠を貢献すると暗黙的に仮定する。
3つのQwen2.5-14Bエージェントを持つ100のGSM8K質問に対して、平均コサイン類似度は0.888であり、有効ランクは3.0のうち2.17であり、表現的崩壊を意味する。
DALCは、埋め込み幾何学から多様性重量を計算するトレーニングフリーコンセンサスプロトコルであり、GSM8Kでは87%、トークンコストでは84%に達する。
アブレーション実験では1~3点のラン-ラン分散が示され、ヒント共有が多様性の重み付けに留まらず寄与していることが確認され、エンコーダの選択は崩壊重大度(mxbaiでは0.908、nomicでは0.888)と下流の精度を強く調節することを示した。
より堅牢な発見は、崩壊が測定可能であり、難しいタスクが悪化し、プロキシを埋め込むことが、遅延通信プロトコルのファーストオーダー設計決定であることだ。
関連論文リスト
- The Specification Gap: Coordination Failure Under Partial Knowledge in Code Agents [0.0]
2エージェント統合の精度は、詳細が削除されると58%から25%に低下する。
因子的回復実験により、完全な仕様を復元するだけで、単一エージェントの天井が回復することが示された。
このギャップは単に隠された情報の結果ではなく、共有された決定なしに互換性のあるコードを生成することの難しさを反映している。
論文 参考訳(メタデータ) (2026-03-25T13:18:26Z) - Semantic Invariance in Agentic AI [2.7821684674538347]
大規模言語モデルは、意思決定支援、科学的問題解決、マルチエージェント調整システムにおいて、自律的推論エージェントとしての役割をますます高めている。
LLMエージェントを連続的なアプリケーションにデプロイするには、それらの推論が意味論的に等価な入力変動の下で安定であることを保証する必要がある。
標準ベンチマーク評価は、固定された正準問題定式化の精度を評価するが、この重要な信頼性の次元を捉えることができない。
論文 参考訳(メタデータ) (2026-03-13T17:08:44Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment [22.305033366660187]
言語モデル(LM)は矛盾する推論子であり、しばしば同じプロンプトに対する矛盾した応答を生成する。
適切に整合した推論モデルの本質的な性質として自己整合性を定式化し、MACA(Multi-Agent Consensus Alignment)を導入する。
MACAは、エージェントが自分自身をより決定的かつ簡潔に教えることを可能にし、外部の監督なしにマルチエージェント設定におけるピアインサイトをより活用する。
論文 参考訳(メタデータ) (2025-09-18T17:27:28Z) - ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs [61.07130026622437]
大規模言語モデル(LLM)は、まだ自然言語推論タスクに苦戦している。
心の社会に動機づけられて、我々はReConcileを提案する。
LLMエージェント間のラウンドテーブル会議として設計されたマルチモデルマルチエージェントフレームワーク。
論文 参考訳(メタデータ) (2023-09-22T17:12:45Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。