論文の概要: When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements
- arxiv url: http://arxiv.org/abs/2502.15153v2
- Date: Thu, 02 Oct 2025 15:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 19:26:07.804967
- Title: When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements
- Title(参考訳): 難治性難聴の診断 : LLMマルチエージェント診断下での自己修復能力の検討
- Authors: Tianjie Ju, Bowen Wang, Hao Fei, Mong-Li Lee, Wynne Hsu, Yun Li, Qianren Wang, Pengzhou Cheng, Zongru Wu, Haodong Zhao, Zhuosheng Zhang, Gongshen Liu,
- Abstract要約: 我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
- 参考スコア(独自算出の注目度): 56.29265568399648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have upgraded them from sophisticated text generators to autonomous agents capable of cooperation and tool use in multi-agent systems (MAS). However, it remains unclear how disagreements shape collective decision-making. In this paper, we revisit the role of disagreement and argue that general, partially overlapping disagreements prevent premature consensus and expand the explored solution space, while disagreements on task-critical steps can derail collaboration depending on the topology of solution paths. We investigate two collaborative settings with distinct path structures: collaborative reasoning (CounterFact, MQuAKE-cf), which typically follows a single evidential chain, whereas collaborative programming (HumanEval, GAIA) often adopts multiple valid implementations. Disagreements are instantiated as general heterogeneity among agents and as task-critical counterfactual knowledge edits injected into context or parameters. Experiments reveal that general disagreements consistently improve success by encouraging complementary exploration. By contrast, task-critical disagreements substantially reduce success on single-path reasoning, yet have a limited impact on programming, where agents can choose alternative solutions. Trace analyses show that MAS frequently bypasses the edited facts in programming but rarely does so in reasoning, revealing an emergent self-repair capability that depends on solution-path rather than scale alone. Our code is available at https://github.com/wbw625/MultiAgentRobustness.
- Abstract(参考訳): 近年のLarge Language Models (LLM) は、高度なテキストジェネレータから、マルチエージェントシステム(MAS)における協調とツール使用が可能な自律エージェントにアップグレードされている。
しかし、不一致が集団的な意思決定を形作るかは定かではない。
本稿では、不一致の役割を再考し、部分的に重なり合う不一致が早期の合意を妨げ、探索された解決空間を広げる一方で、課題クリティカルなステップに関する不一致は、解経路のトポロジーによって協調を損なうことができると論じる。
協調的推論(CounterFact, MQuAKE-cf)は一般に1つの明らかな連鎖に従うが、協調的プログラミング(HumanEval, GAIA)は複数の有効な実装を採用することが多い。
識別はエージェント間の一般的な異質性としてインスタンス化され、コンテキストやパラメータに注入されるタスククリティカルな対実的知識編集として生成される。
実験の結果、一般的な不一致は相補的な探索を奨励することで成功を継続的に改善することが明らかとなった。
対照的に、タスククリティカルな不一致はシングルパス推論の成功を大幅に減少させるが、エージェントが代替ソリューションを選択することができるプログラミングに限定的な影響を及ぼす。
トレース分析によると、MASはプログラミングにおいてしばしば編集された事実をバイパスするが、推論においてそうすることは滅多にない。
私たちのコードはhttps://github.com/wbw625/MultiAgentRobustnessで利用可能です。
関連論文リスト
- MAGIC: A Multi-Hop and Graph-Based Benchmark for Inter-Context Conflicts in Retrieval-Augmented Generation [4.177310099979434]
RAGシステムでは、検索された文書が互いに矛盾したり、モデルのパラメトリックな知識と矛盾することがある。
本稿では,2つの類似しているが異なる文脈間の相違を多様かつ微妙に生成する知識グラフ(KG)に基づくフレームワークを提案する。
我々のベンチマークであるMAGICの実験結果から,LLMの内部動作に関する興味深い知見が得られた。
論文 参考訳(メタデータ) (2025-07-29T07:19:49Z) - Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness [50.29739337771454]
マルチエージェントの議論(MAD)アプローチは、モノリシックモデルに対する推論、堅牢性、多様な視点を提供する。
本稿では,MADを実験時間計算のスケーリング手法として概念化し,協調的な改良と多様な探索能力で区別する。
我々は、MADと強力なセルフエージェントテストタイムスケーリングベースラインを数学的推論と安全関連タスクに基づいて比較した総合的な実証的研究を行う。
論文 参考訳(メタデータ) (2025-05-29T01:02:55Z) - Benchmarking Multimodal Knowledge Conflict for Large Multimodal Models [23.37800506729006]
本稿では,コンテキストメモリとコンテキスト間の両方のシナリオにおいて,現実的知識衝突を評価するベンチマークであるMMKC-Benchを提案する。
MMKC-Benchには1,573のナレッジインスタンスと,23種類の広範にわたる3,381のイメージが含まれている。
以上の結果から,現在のLMMは知識の衝突を認識する能力があるが,外的証拠よりも内的パラメトリック知識を好む傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-26T04:39:30Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - KOALA: Knowledge Conflict Augmentations for Robustness in Vision Language Models [6.52323086990482]
segsubは、画像ソースに標的摂動を適用して、視覚言語モデルの堅牢性を研究し改善するフレームワークである。
以前の知見とは対照的に,VLMは画像摂動に強い。
GPT-4oによる幻覚と画像コンテキストの関連性を見出した。
論文 参考訳(メタデータ) (2025-02-19T00:26:38Z) - Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding [15.828455477224516]
マルチモーダルタスクとして、文書理解には知覚能力と認知能力の両方を持つモデルが必要である。
本稿では,認知と知覚の対立を認知と知覚の対立(C&P)として定義する。
本稿では,C&Pの知識紛争を軽減するために,マルチモーダル知識一貫性ファインタニング(Multimodal Knowledge Consistency Fine-tuning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T11:28:50Z) - Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。
MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。
各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:41:17Z) - ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM [36.332500824079844]
大規模言語モデル (LLM) は、多くの分野にわたって顕著な進歩を遂げてきたが、知識紛争の重大な問題は研究されることはめったにない。
我々は3つの側面から知識衝突を評価するために開発された最初の総合ベンチマークであるConflictBankを紹介する。
本研究は, 誤情報, 時間的相違, 意味的相違から生じる対立を慎重に分析し, 4つのモデルファミリーと12個のLLMインスタンスに分類した。
論文 参考訳(メタデータ) (2024-08-22T02:33:13Z) - Towards Rationality in Language and Multimodal Agents: A Survey [23.451887560567602]
この研究は、より合理的な言語とマルチモーダルエージェントを構築する方法について議論する。
合理性は理性によって導かれる性質であり、証拠や論理原理と整合した意思決定によって特徴づけられる。
論文 参考訳(メタデータ) (2024-06-01T01:17:25Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - Resolving Knowledge Conflicts in Large Language Models [46.903549751371415]
大規模言語モデル(LLM)はしばしば知識の衝突に遭遇する。
知識衝突が発生した場合のLLMのデシラタとは何か,既存のLLMがそれを満たすのかを問う。
文脈知識の矛盾をシミュレートする評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:57:45Z) - Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [55.66353783572259]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。
我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文 参考訳(メタデータ) (2023-08-23T04:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。