論文の概要: Peacemaker or Troublemaker: How Sycophancy Shapes Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2509.23055v1
- Date: Sat, 27 Sep 2025 02:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.013743
- Title: Peacemaker or Troublemaker: How Sycophancy Shapes Multi-Agent Debate
- Title(参考訳): 平和メーカやトラブルメーカ:マルチエージェントの議論をいかに形作るか
- Authors: Binwei Yao, Chao Shang, Wanyu Du, Jianfeng He, Ruixue Lian, Yi Zhang, Hang Su, Sandesh Swamy, Yanjun Qi,
- Abstract要約: 大規模言語モデル (LLM) はしばしば、過剰な一致性を示す傾向がある。
LLMs固有の薬理は、議論を早めの合意に崩壊させる可能性がある。
- 参考スコア(独自算出の注目度): 30.66779902590191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often display sycophancy, a tendency toward excessive agreeability. This behavior poses significant challenges for multi-agent debating systems (MADS) that rely on productive disagreement to refine arguments and foster innovative thinking. LLMs' inherent sycophancy can collapse debates into premature consensus, potentially undermining the benefits of multi-agent debate. While prior studies focus on user--LLM sycophancy, the impact of inter-agent sycophancy in debate remains poorly understood. To address this gap, we introduce the first operational framework that (1) proposes a formal definition of sycophancy specific to MADS settings, (2) develops new metrics to evaluate the agent sycophancy level and its impact on information exchange in MADS, and (3) systematically investigates how varying levels of sycophancy across agent roles (debaters and judges) affects outcomes in both decentralized and centralized debate frameworks. Our findings reveal that sycophancy is a core failure mode that amplifies disagreement collapse before reaching a correct conclusion in multi-agent debates, yields lower accuracy than single-agent baselines, and arises from distinct debater-driven and judge-driven failure modes. Building on these findings, we propose actionable design principles for MADS, effectively balancing productive disagreement with cooperation in agent interactions.
- Abstract(参考訳): 大規模言語モデル (LLM) はしばしば、過剰な一致性を示す傾向がある。
この行動は、議論の洗練と革新的思考の促進に生産的不一致に依存するマルチエージェント討論システム(MADS)に重大な課題をもたらす。
LLMs固有の薬理は、議論を早めのコンセンサスに分解し、マルチエージェントの議論の利点を損なう可能性がある。
以前の研究では、ユーザ-LLM 梅毒に焦点が当てられていたが、議論におけるエージェント間梅毒の影響はいまだによく分かっていない。
このギャップに対処するため,(1)MADS設定に特有の薬局の正式な定義を提案し,(2)MADSにおける薬局の薬局のレベルと情報交換への影響を評価するための新しい指標を開発し,(3)エージェント・ロール間の薬局のレベルが,分散化と集中化の両議論の両枠組みにおける結果にどのように影響するかを体系的に調査する。
以上の結果から, 梅毒は, 多エージェントの議論において正しい結論に達する前に不一致崩壊を増幅し, 単一エージェントのベースラインよりも精度を低くし, 異なる議論者主導, 判断主導の失敗モードから生じる中核的障害モードであることが明らかとなった。
これらの知見に基づいて,エージェント間相互作用における協調による生産的不一致を効果的にバランスさせる,MADSの実用的な設計原則を提案する。
関連論文リスト
- Disagreements in Reasoning: How a Model's Thinking Process Dictates Persuasion in Multi-Agent Systems [49.69773210844221]
本稿では,説得力はモデルスケールの関数である,という一般的な仮説に挑戦する。
一連のマルチエージェントの説得実験を通じて、パーサーション・デュナリティ(Persuasion Duality)と呼ばれる基本的なトレードオフを明らかにする。
以上の結果から, LRMの推理過程は説得に対する抵抗性が大きく, 当初の信念をより堅固に維持していることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T12:03:10Z) - Enhancing Multi-Agent Debate System Performance via Confidence Expression [55.34012400580016]
マルチエージェント・ディベート(MAD)システムは人間の議論をシミュレートし、タスク性能を向上させる。
一部の大規模言語モデル(LLM)は、特定のタスクに対して優れた知識や推論能力を持っているが、議論の間、この利点を明確に伝えるのに苦労している。
不適切な信頼表現は、MADシステムのエージェントが、不適切な信念を頑固に維持するか、あるいは最適でない答えに早急に収束させる可能性がある。
我々は,議論プロセス全体を通して信頼表現を統合するMADフレームワークConfMADを開発した。
論文 参考訳(メタデータ) (2025-09-17T14:34:27Z) - Free-MAD: Consensus-Free Multi-Agent Debate [17.384699873512464]
マルチエージェント討論(MAD)は、大規模言語モデル(LLM)の推論能力を改善するための新しいアプローチである。
既存のMADメソッドは、合意に達するためにエージェント間の複数ラウンドの相互作用に依存しており、最終的な出力は前回のラウンドで多数決によって選択される。
エージェント間のコンセンサスを必要としない新しいMADフレームワークであるtextscFree-MADを提案する。
論文 参考訳(メタデータ) (2025-09-14T01:55:01Z) - Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness [50.29739337771454]
マルチエージェントの議論(MAD)アプローチは、モノリシックモデルに対する推論、堅牢性、多様な視点を提供する。
本稿では,MADを実験時間計算のスケーリング手法として概念化し,協調的な改良と多様な探索能力で区別する。
我々は、MADと強力なセルフエージェントテストタイムスケーリングベースラインを数学的推論と安全関連タスクに基づいて比較した総合的な実証的研究を行う。
論文 参考訳(メタデータ) (2025-05-29T01:02:55Z) - Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making [80.94208848596215]
提案する概念は「Catfish Agent」である。これは、構造的不満を注入し、無声な合意に反するように設計された役割特化LDMである。
組織心理学において「ナマズ・エフェクト」にインスパイアされたカマズ・エージェントは、より深い推論を促進するために、新たなコンセンサスに挑戦するように設計されている。
論文 参考訳(メタデータ) (2025-05-27T17:59:50Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - SocraSynth: Multi-LLM Reasoning with Conditional Statistics [2.5200794639628032]
大きな言語モデル(LLM)は偏見や幻覚、推論能力の欠如に対する批判に直面している。
本稿では,これらの問題を緩和するために開発されたマルチLLMエージェント推論プラットフォームであるSocra Synthを紹介する。
論文 参考訳(メタデータ) (2024-01-19T07:16:21Z) - Learning to Break: Knowledge-Enhanced Reasoning in Multi-Agent Debate System [16.830182915504555]
マルチエージェント討論システム(MAD)は、真理を追求する人間の議論の過程を模倣する。
様々なエージェントが、限られた知識の背景から、適切に、高度に一貫した認知をさせることは困難である。
本稿では,Underline Knowledge-underlineEnhanced frameworkを用いたUnderlineMulti-underlineAgent UnderlineDebateを提案する。
論文 参考訳(メタデータ) (2023-12-08T06:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。