論文の概要: CortexDebate: Debating Sparsely and Equally for Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2507.03928v1
- Date: Sat, 05 Jul 2025 07:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.941063
- Title: CortexDebate: Debating Sparsely and Equally for Multi-Agent Debate
- Title(参考訳): CortexDebate: マルチエージェントデリベートについて, 疎らかに, 等しく議論する
- Authors: Yiliu Sun, Zicheng Zhao, Sheng Wan, Chen Gong,
- Abstract要約: 単一大言語モデル(LLM)の問題を緩和するための効果的な戦略としてマルチエージェント議論(MAD)が登場した。
既存のMAD手法では、 (a) LLMエージェントが多くの入力情報に紛失し、性能低下を経験する、 (b) 自信過剰なジレンマ(自己保証LDMエージェントが議論を支配し、議論の有効性を低くする、という2つの問題に直面している。
そこで我々は,ヒトの脳に着想を得た新しいMAD手法"CortexDebate"を提案する。
- 参考スコア(独自算出の注目度): 11.155092859033784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, single Large Language Model (LLM) struggles with critical issues such as hallucination and inadequate reasoning abilities. To mitigate these issues, Multi-Agent Debate (MAD) has emerged as an effective strategy, where LLM agents engage in in-depth debates with others on tasks. However, existing MAD methods face two major issues: (a) too lengthy input contexts, which causes LLM agents to get lost in plenty of input information and experiences performance drop; and (b) the overconfidence dilemma, where self-assured LLM agents dominate the debate, leading to low debating effectiveness. To address these limitations, we propose a novel MAD method called "CortexDebate". Inspired by the human brain's tendency to establish a sparse and dynamically optimized network among cortical areas governed by white matter, CortexDebate constructs a sparse debating graph among LLM agents, where each LLM agent only debates with the ones that are helpful to it. To optimize the graph, we propose a module named McKinsey-based Debate Matter (MDM), which acts as an artificial analog to white matter. By integrating the McKinsey Trust Formula, a well-established measure of trustworthiness from sociology, MDM enables credible evaluations that guide graph optimization. The effectiveness of our CortexDebate has been well demonstrated by extensive experimental results across eight datasets from four task types.
- Abstract(参考訳): 現在、単一大言語モデル(LLM)は幻覚や不適切な推論能力といった重要な問題に悩まされている。
これらの問題を緩和するために、MAD(Multi-Agent Debate)は、LLMエージェントがタスクに関して他の人と深い議論を行う効果的な戦略として登場した。
しかし、既存のMADメソッドは2つの大きな問題に直面している。
(a)入力コンテキストが長すぎると、LLMエージェントが多くの入力情報に紛失し、性能低下を経験する。
b) 自己保証型LDMエージェントが議論を主導する過信ジレンマは, 議論の有効性を低くする。
これらの制約に対処するため,我々は"CortexDebate"と呼ばれる新しいMAD手法を提案する。
ヒトの脳が白黒物質によって支配される皮質領域に疎結合で動的に最適化されたネットワークを確立する傾向に触発されて、CortexDebateはLSMエージェント間でスパース議論グラフを構築し、それぞれのLDMエージェントがそれに役立つものとのみ議論する。
このグラフを最適化するために, ホワイトマターの人工的なアナログとして機能する, マッキンゼーをベースとしたDebate Matter (MDM) というモジュールを提案する。
社会学からの信頼度をよく確立した尺度であるマッキンゼー・トラスト・フォーミュラを統合することで、MDMはグラフ最適化を導く信頼できる評価を可能にする。
CortexDebateの有効性は、4つのタスクタイプから8つのデータセットにまたがる広範な実験結果によってよく実証されている。
関連論文リスト
- The Truth Becomes Clearer Through Debate! Multi-Agent Systems with Large Language Models Unmask Fake News [39.260570381498866]
TruEDebate(TED)は、ソーシャルネットワーク上で偽ニュースを検出する新しいマルチエージェントシステムである。
TEDは形式的な議論設定に触発された厳格な議論プロセスを採用している。
DebateFlow Agentsはエージェントを2つのチームに編成する。
論文 参考訳(メタデータ) (2025-05-13T13:03:20Z) - Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning [8.800516398660069]
大規模言語モデル(LLM)の推論能力を高めるための,有望なフレームワークとして,マルチエージェントコラボレーションが登場した。
本稿では,エージェントの初期応答の信頼性スコアに基づいて,議論を選択的に活性化する適応型マルチエージェント討論フレームワークであるDebate Only When Necessary (DOWN)を提案する。
ダウンは最大6倍の効率向上を実現し、既存のメソッドのパフォーマンスを保留する。
論文 参考訳(メタデータ) (2025-04-07T13:17:52Z) - CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Can LLMs Beat Humans in Debating? A Dynamic Multi-agent Framework for Competitive Debate [22.813887723656023]
Agent for Debate (Agent4Debate)は、大規模言語モデル(LLM)に基づく動的マルチエージェントフレームワークである。
評価には、Debatrix自動スコアシステムと、確立されたDebatrix-EloとHuman-Eloのランキングに基づく専門家の人間レビュアーが使用されている。
実験の結果、最先端のAgent4Debateは人間の能力に匹敵する能力を示した。
論文 参考訳(メタデータ) (2024-08-08T14:02:45Z) - Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [52.99006895757801]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。
本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。
敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2024-05-30T18:07:13Z) - Debatrix: Multi-dimensional Debate Judge with Iterative Chronological Analysis Based on LLM [51.43102092480804]
Debatrixは、Large Language Models (LLMs)に基づく自動ディスカッションジャッジである。
実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。
以上の結果から,LSMを直接使用して議論評価を行ない,顕著な改善が見られた。
論文 参考訳(メタデータ) (2024-03-12T18:19:47Z) - Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the
Key? [84.36332588191623]
本稿では,議論機構の集合を充実させる新しいグループディスカッションフレームワークを提案する。
マルチエージェントの議論は,プロンプトに実演がない場合にのみ,単一のエージェントよりも優れていることが観察された。
論文 参考訳(メタデータ) (2024-02-28T12:04:05Z) - Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs [7.7433783185451075]
コスト、時間、正確性の間のトレードオフを探るため、さまざまな議論と戦略をベンチマークします。
マルチエージェントの議論システムは、現在の形式では、他の提案されたプロンプト戦略を確実に上回っているわけではない。
これらの結果に基づいて、エージェント合意レベルの調整など、議論戦略の改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-11-29T05:54:41Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。