論文の概要: The Value of Variance: Mitigating Debate Collapse in Multi-Agent Systems via Uncertainty-Driven Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.07186v1
- Date: Fri, 06 Feb 2026 20:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.489686
- Title: The Value of Variance: Mitigating Debate Collapse in Multi-Agent Systems via Uncertainty-Driven Policy Optimization
- Title(参考訳): 変数の価値:不確実性駆動型政策最適化によるマルチエージェントシステムにおける議論の崩壊の軽減
- Authors: Luoxi Tang, Yuqiao Meng, Joseph Costa, Yingxue Zhang, Muchao Ye, Zhaohan Xi,
- Abstract要約: マルチエージェント討論(MAD)システムは反復的な議論を通じて推論を改善するが、議論の崩壊には弱いままである。
既存の方法には、そのような障害を検知または防止するための原則的なメカニズムが欠如している。
本稿では,エージェント内(個人的推論の不確実性),エージェント間(対話的不確実性),システムレベル(出力不確実性)の3つのレベルにおいて,行動の不確実性を測定する階層的尺度を提案する。
- 参考スコア(独自算出の注目度): 11.251743031610646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent debate (MAD) systems improve LLM reasoning through iterative deliberation, but remain vulnerable to debate collapse, a failure type where final agent decisions are compromised on erroneous reasoning. Existing methods lack principled mechanisms to detect or prevent such failures. To address this gap, we first propose a hierarchical metric that quantifies behavioral uncertainty at three levels: intra-agent (individual reasoning uncertainty), inter-agent (interactive uncertainty), and system-level (output uncertainty). Empirical analysis across several benchmarks reveals that our proposed uncertainty quantification reliably indicates system failures, which demonstrates the validity of using them as diagnostic metrics to indicate the system failure. Subsequently, we propose a mitigation strategy by formulating an uncertainty-driven policy optimization to penalize self-contradiction, peer conflict, and low-confidence outputs in a dynamic debating environment. Experiments demonstrate that our proposed uncertainty-driven mitigation reliably calibrates the multi-agent system by consistently improving decision accuracy while reducing system disagreement.
- Abstract(参考訳): マルチエージェント・ディベート(MAD)システムは、反復的な検討を通じてLCM推論を改善するが、議論の崩壊には弱い。
既存の方法には、そのような障害を検知または防止するための原則的なメカニズムが欠如している。
このギャップに対処するために、まず、エージェント内(個人的推論の不確実性)、エージェント間(対話的不確実性)、システムレベル(出力不確実性)の3つのレベルで行動の不確実性を測定する階層的指標を提案する。
いくつかのベンチマークで実証分析した結果,提案した不確実性の定量化はシステム障害を確実に示しており,システム障害を示す診断指標として使用することの有効性が示された。
次に, 動的議論環境において, 不確実性を考慮した政策最適化を定式化し, 自己コントラディション, ピアコンフリクト, 低信頼度アウトプットを罰することによる緩和戦略を提案する。
実験により,提案した不確実性による緩和は,システム不一致を低減しつつ,決定精度を一貫して向上させることにより,マルチエージェントシステムを確実に校正することを示した。
関連論文リスト
- Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - On the Bayes Inconsistency of Disagreement Discrepancy Surrogates [14.483267669561856]
ディープニューラルネットワークは、分散シフトによって現実のコンテキストにデプロイされると失敗することが多い。
不一致に対する既存のサロゲートがベイズに一貫性がないことを示す。
我々は,クロスエントロピーと組み合わせることで,不一致の相違を確実に一貫したサロゲートが得られる新しい相違損失を提案する。
論文 参考訳(メタデータ) (2025-12-05T18:16:03Z) - Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [1.2183405753834562]
この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。
まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。
本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T02:33:53Z) - SAUP: Situation Awareness Uncertainty Propagation on LLM Agent [52.444674213316574]
大規模言語モデル(LLM)は多段階エージェントシステムに統合され、様々なアプリケーションにまたがる複雑な意思決定プロセスを可能にする。
既存の不確実性推定手法は主に最終段階の出力に重点を置いており、これは多段階決定プロセスにおける累積的不確実性やエージェントとその環境間の動的相互作用を考慮できない。
LLMエージェントの推論プロセスの各ステップを通じて不確実性を伝播する新しいフレームワークであるSAUPを提案する。
論文 参考訳(メタデータ) (2024-12-02T01:31:13Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。