論文の概要: Counterfactual Graph for Multi-Agent LLM Calibration
- arxiv url: http://arxiv.org/abs/2605.30653v1
- Date: Thu, 28 May 2026 23:16:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.287191
- Title: Counterfactual Graph for Multi-Agent LLM Calibration
- Title(参考訳): マルチエージェントLCM校正のための実測グラフ
- Authors: Jiatan Huang, Mingchen Li, Ziming Li, Sunjae Kwon, Hong Yu, Chuxu Zhang,
- Abstract要約: コミュニケーションは、相関する失敗と偽の合意をもたらす可能性があるため、同じ投票シェアは、あるトポロジでは信頼できる合意を反映するが、別のトポロジでは過度な信頼を反映する可能性がある。
CAGE-CAL はマルチエージェント LLM のエージェントグラフキャリブレーションフレームワークである。
- 参考スコア(独自算出の注目度): 35.92917436685906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent LLM systems often treat agreement as evidence: when many agents in a panel give the same answer, that answer is assumed to be more reliable. We show that this assumption can fail after agents communicate. Communication can induce correlated failures and false consensus, so the same vote share may reflect reliable agreement in one topology but over-confidence in another. We propose CAGE-CAL, a counterfactual agent-graph calibration framework for multi-agent LLMs. For each query, CAGE-CAL compares an observed post-communication agent graph with a matched counterfactual no-communication graph, capturing both pairwise failure correlations and group-level dependencies. Rather than simply counting how many agents agree, CAGE-CAL estimates the counterfactual shift between observed and no-communication dependence, and calibrates confidence accordingly. Across five benchmarks, CAGE-CAL improves reliability discrimination with competitive ECE, and its calibrated confidence further improves topology selection over the best fixed-topology strategy.
- Abstract(参考訳): 多エージェントLPMシステムは、しばしば合意を証拠として扱う:パネル内の多くのエージェントが同じ答えを与えると、その答えはより信頼性が高いと仮定される。
この仮定はエージェントが通信した後で失敗する可能性があることを示す。
コミュニケーションは、相関する失敗と偽の合意をもたらす可能性があるため、同じ投票シェアは、あるトポロジでは信頼できる合意を反映するが、別のトポロジでは過度な信頼を反映する可能性がある。
CAGE-CAL はマルチエージェント LLM のエージェントグラフキャリブレーションフレームワークである。
各クエリに対して、CAGE-CALは観測された通信後エージェントグラフと一致した非通信グラフを比較し、ペアレベルの障害相関とグループレベルの依存関係の両方をキャプチャする。
単に何人のエージェントが同意するかを数えるのではなく、CAGE-CALは観察されたコミュニケーション依存と非コミュニケーション依存の反ファクトシフトを推定し、それに応じて信頼を校正する。
5つのベンチマークで、CAGE-CALは競争的ECEによる信頼性の差別を改善し、その校正された信頼性は、最良の固定位相戦略よりもトポロジーの選択をさらに改善する。
関連論文リスト
- DarkForest: Less Talk, Higher Accuracy for Multi-Agent LLMs [8.797488068424181]
我々はダークフォレストという制御通信協調フレームワークを提案する。
DarkForestはエージェントを独立に保持するため、各エージェントは他のエージェントの出力を見ることなく回答を生成する。
実験によると、DarkForestは全体的な品質をリードし、ベンチマーク指標で最強のベースラインを最大30.7%改善し、通信量の多いベースラインと比較してトークンの消費を最大6.5倍削減している。
論文 参考訳(メタデータ) (2026-05-24T17:34:27Z) - Conflict-Resilient Multi-Agent Reasoning via Signed Graph Modeling [22.248543228906115]
LLMベースのマルチエージェントシステム(MAS)は、強力な推論と意思決定能力を示している。
SIGMA(Signed Graph-informed Multi-Agent reasoning framework)を紹介する。
SIGMAは最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-05-19T06:11:11Z) - FERA: Uncertainty-Aware Federated Reasoning for Large Language Models [60.52562148874846]
我々は、サーバがプライベートなデモンストレーションを行う異種クライアントと協調することで、多段階推論を改善するフェデレーション推論について研究する。
重要な課題は、クライアントの信頼性がクエリ依存であるのに対して、サーバはクライアントデータを検査して、どのコントリビューションが信頼できるかを判断できません。
本稿では,サーバクライアントの反復的コリファインメントに基づくトレーニングフリーフレームワークである Uncertainty-Aware Federated Reasoning (FERA) を提案する。
論文 参考訳(メタデータ) (2026-05-11T07:04:51Z) - Robust Multi-Agent LLMs under Byzantine Faults [12.778788735297288]
大規模言語モデル(LLM)エージェントは、信頼性を向上させるためにピアツーピアネットワークを介して協力する傾向にある。
信頼性の低いエージェントやビザンティンのエージェントは、近隣のエージェントを誤った結論へと誘導し、システム全体の性能を低下させる可能性がある。
既存の手法は、リーダーベースの調整や自己報告された信頼に依存しており、どちらも敵の操作に影響を受けやすい。
論文 参考訳(メタデータ) (2026-05-09T17:37:43Z) - Stochasticity in Agentic Evaluations: Quantifying Inconsistency with Intraclass Correlation [0.7418138958218443]
クラス内相関係数(ICC)は、測定科学から分散を特徴づける指標である。
ICCは観測されたばらつきを、問合せ間分散(タスク困難)と問合せ内分散(エージェント不整合)に分解する
我々は、ICCが構造化タスクのn=8-16と複雑な推論のn>=32で収束し、実践者がエビデンスベースの再サンプリング予算を設定することを実証した。
論文 参考訳(メタデータ) (2025-12-07T07:58:13Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Collective Reasoning Among LLMs: A Framework for Answer Validation Without Ground Truth [0.0]
いくつかの先進的な大規模言語モデルが複雑で博士レベルの確率問題を生成・解き出す新しいアプローチを導入する。
本研究は, 多様なモデル間の合意が, アウトプットの信頼性を如何に示すかに焦点を当てる。
論文 参考訳(メタデータ) (2025-02-28T06:20:52Z) - DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。
エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。