論文の概要: Stay Focused: Problem Drift in Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2502.19559v1
- Date: Wed, 26 Feb 2025 20:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 15:15:46.626375
- Title: Stay Focused: Problem Drift in Multi-Agent Debate
- Title(参考訳): Stay Focused: マルチエージェント討論における問題解決
- Authors: Jonas Becker, Lars Benedikt Kaesberg, Andreas Stephan, Jan Philip Wahle, Terry Ruas, Bela Gipp,
- Abstract要約: 議論は複数回にわたる最初の問題から遠ざかっている。
本研究は,マルチエージェントの議論における重要な限界を理解するための第一歩として,将来的な有効性向上の道筋を明らかにすることができる。
- 参考スコア(独自算出の注目度): 7.156386767951493
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-agent debate - multiple instances of large language models discussing problems in turn-based interaction - has shown promise for solving knowledge and reasoning tasks. However, these methods show limitations, particularly when scaling them to longer reasoning chains. In this study, we unveil a new issue of multi-agent debate: discussions drift away from the initial problem over multiple turns. We define this phenomenon as problem drift and quantify its presence across ten tasks (i.e., three generative, three knowledge, three reasoning, and one instruction-following task). To identify the reasons for this issue, we perform a human study with eight experts on discussions suffering from problem drift, who find the most common issues are a lack of progress (35% of cases), low-quality feedback (26% of cases), and a lack of clarity (25% of cases). To systematically address the issue of problem drift, we propose DRIFTJudge, a method based on LLM-as-a-judge, to detect problem drift at test-time. We further propose DRIFTPolicy, a method to mitigate 31% of problem drift cases. Our study can be seen as a first step to understanding a key limitation of multi-agent debate, highlighting pathways for improving their effectiveness in the future.
- Abstract(参考訳): ターンベースインタラクションの問題を議論する大規模言語モデルの複数例であるマルチエージェントの議論では、知識と推論タスクの解決が約束されている。
しかし、これらの手法は、特に長い推論チェーンにスケールする場合に制限を示す。
本研究では,複数回にわたる議論から遠ざかる,マルチエージェントの議論の新たな課題を明らかにする。
この現象を問題ドリフトとして定義し、その存在を10のタスク(3つの生成的、3つの知識、3つの推論、3つの命令追従タスク)で定量化する。
この問題の理由を明らかにするために,問題ドリフトに苦しむ議論について8人の専門家とともに人間による研究を行い,最も一般的な問題として,進展の欠如(35%),低品質フィードバック(26%),明確さの欠如(25%)を挙げている。
そこで本研究では,LLM-as-a-judgeに基づくDRIFTJudgeを提案する。
さらに,問題ドリフトの31%を緩和するDRIFTPolicyを提案する。
本研究は,マルチエージェントの議論における重要な限界を理解するための第一歩として,将来的な有効性向上の道筋を明らかにすることができる。
関連論文リスト
- Reasoning on Multiple Needles In A Haystack [9.765859280987053]
直接質問をフィルタリングすることで,メモリベースの回答問題に対処する。
この知見に基づいて,マルチラウンド拡張のためのリフレクション機構を導入する。
生成した反復的思考プロセスを使用してモデルをトレーニングし、パフォーマンスの劣化を軽減する。
論文 参考訳(メタデータ) (2025-04-05T11:58:08Z) - MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving [42.531342106718746]
ビッグセブンパーソナリティとソクラティックガイダンス(MAPS)に基づくマルチエージェントフレームワークを提案する。
本稿では,各エージェントが問題解決プロセスの特定の段階に焦点を当てた,プログレッシブな4エージェント問題解決戦略を提案する。
第2号では、ソクラテス質問に触発された批判的エージェントを導入し、批判的思考を促し、自律学習を刺激する。
論文 参考訳(メタデータ) (2025-03-21T07:13:45Z) - Multi-Agent Large Language Models for Conversational Task-Solving [0.0]
対話型タスク解決における新たな主人公として,マルチエージェントシステムが誕生する。
複雑さの異なるタスク間で、マルチエージェントの議論がどのように機能するかは、いまだ不明である。
2022年から2024年までの20のマルチエージェント研究の分類について提案する。
論文 参考訳(メタデータ) (2024-10-30T11:38:13Z) - Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文 参考訳(メタデータ) (2024-10-07T06:37:25Z) - TypedThinker: Diversify Large Language Model Reasoning with Typed Thinking [44.8904486513791]
大規模言語モデル(LLM)は複雑な問題を解決する上で強力な推論能力を示している。
問題とそれ以前の有効性に基づいて適切な推論型を予測するTypedThinkerを提案する。
GPT-4oのようなより高度なシステムやMetaMathのような特殊なモデルに統合することで、推論アプローチを多様化し、問題解決能力を向上させることができる。
論文 参考訳(メタデータ) (2024-10-02T18:54:45Z) - VC Search: Bridging the Gap Between Well-Defined and Ill-Defined Problems in Mathematical Reasoning [46.25056744404318]
5000以上の不確定な数学的問題を含むPMC(Issue with Missing and Contradictory conditions)というベンチマークを開発した。
VCSEARCHは、解決不可能な問題を特定する精度を、さまざまな大きな言語モデルで少なくとも12%向上させる。
論文 参考訳(メタデータ) (2024-06-07T16:24:12Z) - CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving [9.446546965008249]
協調型マルチエージェント・マルチレゾニングパス(CoMM)プロンプトフレームワークを提案する。
具体的には、LLMが問題解決チームで異なる役割を演じるように促し、異なるロールプレイエージェントが目的のタスクを協調的に解決するように促します。
2つの大学レベルの科学問題に対する提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-04-26T23:29:12Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning [53.35861580821777]
この研究は、過剰な要約による意見の自明化と、画像から導入された散逸した概念による焦点の転換という2つの主要な課題に対処する。
この問題に対処するため,BDoG (Blueprint Debate on Graphs) と呼ばれる演目的(トップダウン)な議論手法を提案する。
BDoGでは、世界レベルの要約による意見の自明化を防止するために、ブループリントグラフに限定して議論を行う。さらに、BDoGはグラフ内の枝に証拠を格納することで、頻繁だが無関係な概念によって引き起こされる混乱を緩和する。
論文 参考訳(メタデータ) (2024-03-22T06:03:07Z) - Learning to Break: Knowledge-Enhanced Reasoning in Multi-Agent Debate System [16.830182915504555]
マルチエージェント討論システム(MAD)は、真理を追求する人間の議論の過程を模倣する。
様々なエージェントが、限られた知識の背景から、適切に、高度に一貫した認知をさせることは困難である。
本稿では,Underline Knowledge-underlineEnhanced frameworkを用いたUnderlineMulti-underlineAgent UnderlineDebateを提案する。
論文 参考訳(メタデータ) (2023-12-08T06:22:12Z) - Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [55.66353783572259]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。
我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文 参考訳(メタデータ) (2023-08-23T04:59:21Z) - Surveying (Dis)Parities and Concerns of Compute Hungry NLP Research [75.84463664853125]
我々は,3つのトピック,すなわち環境影響,株式,およびピアレビューへの影響に関する懸念を定量化するための最初の試みを提供する。
我々は、高齢者、アカデミック、産業に関して、異なるグループと異なるグループ内の既存の(異なる)格差を捉えます。
私たちは、発見された格差を軽減するためのレコメンデーションを考案しました。
論文 参考訳(メタデータ) (2023-06-29T12:44:53Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。