Fugu-MT 論文翻訳(概要): Stay Focused: Problem Drift in Multi-Agent Debate

論文の概要: Stay Focused: Problem Drift in Multi-Agent Debate

arxiv url: http://arxiv.org/abs/2502.19559v1
Date: Wed, 26 Feb 2025 20:54:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.626375
Title: Stay Focused: Problem Drift in Multi-Agent Debate
Title（参考訳）: Stay Focused: マルチエージェント討論における問題解決
Authors: Jonas Becker, Lars Benedikt Kaesberg, Andreas Stephan, Jan Philip Wahle, Terry Ruas, Bela Gipp,
Abstract要約: 議論は複数回にわたる最初の問題から遠ざかっている。本研究は,マルチエージェントの議論における重要な限界を理解するための第一歩として,将来的な有効性向上の道筋を明らかにすることができる。
参考スコア（独自算出の注目度）: 7.156386767951493
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Multi-agent debate - multiple instances of large language models discussing problems in turn-based interaction - has shown promise for solving knowledge and reasoning tasks. However, these methods show limitations, particularly when scaling them to longer reasoning chains. In this study, we unveil a new issue of multi-agent debate: discussions drift away from the initial problem over multiple turns. We define this phenomenon as problem drift and quantify its presence across ten tasks (i.e., three generative, three knowledge, three reasoning, and one instruction-following task). To identify the reasons for this issue, we perform a human study with eight experts on discussions suffering from problem drift, who find the most common issues are a lack of progress (35% of cases), low-quality feedback (26% of cases), and a lack of clarity (25% of cases). To systematically address the issue of problem drift, we propose DRIFTJudge, a method based on LLM-as-a-judge, to detect problem drift at test-time. We further propose DRIFTPolicy, a method to mitigate 31% of problem drift cases. Our study can be seen as a first step to understanding a key limitation of multi-agent debate, highlighting pathways for improving their effectiveness in the future.
Abstract（参考訳）: ターンベースインタラクションの問題を議論する大規模言語モデルの複数例であるマルチエージェントの議論では、知識と推論タスクの解決が約束されている。しかし、これらの手法は、特に長い推論チェーンにスケールする場合に制限を示す。本研究では,複数回にわたる議論から遠ざかる,マルチエージェントの議論の新たな課題を明らかにする。この現象を問題ドリフトとして定義し、その存在を10のタスク(3つの生成的、3つの知識、3つの推論、3つの命令追従タスク)で定量化する。この問題の理由を明らかにするために,問題ドリフトに苦しむ議論について8人の専門家とともに人間による研究を行い,最も一般的な問題として,進展の欠如(35%),低品質フィードバック(26%),明確さの欠如(25%)を挙げている。そこで本研究では,LLM-as-a-judgeに基づくDRIFTJudgeを提案する。さらに,問題ドリフトの31%を緩和するDRIFTPolicyを提案する。本研究は,マルチエージェントの議論における重要な限界を理解するための第一歩として,将来的な有効性向上の道筋を明らかにすることができる。

関連論文リスト

Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG [3.9063541371093184]
本稿では, KDD Cup 2025 Meta Comprehensive RAG Benchmark for Multi-modal, Multi-turn (CRAG-MM) のチーム CRUISE による技術ソリューションを提案する。この課題は、視覚言語モデル(VLM)の重要な限界、すなわち幻覚への適合性に対処することを目的としている。本ソリューションでは,効率向上のための軽量なクエリルータ,クエリ対応検索と要約パイプライン,デュアルパス生成,ポストホック検証を統合した。
論文参考訳（メタデータ） (2025-07-27T05:45:45Z)
Reasoning on Multiple Needles In A Haystack [9.765859280987053]
直接質問をフィルタリングすることで,メモリベースの回答問題に対処する。この知見に基づいて,マルチラウンド拡張のためのリフレクション機構を導入する。生成した反復的思考プロセスを使用してモデルをトレーニングし、パフォーマンスの劣化を軽減する。
論文参考訳（メタデータ） (2025-04-05T11:58:08Z)
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving [42.531342106718746]
ビッグセブンパーソナリティとソクラティックガイダンス(MAPS)に基づくマルチエージェントフレームワークを提案する。本稿では,各エージェントが問題解決プロセスの特定の段階に焦点を当てた,プログレッシブな4エージェント問題解決戦略を提案する。第2号では、ソクラテス質問に触発された批判的エージェントを導入し、批判的思考を促し、自律学習を刺激する。
論文参考訳（メタデータ） (2025-03-21T07:13:45Z)
Multi-Agent Large Language Models for Conversational Task-Solving [0.0]
対話型タスク解決における新たな主人公として,マルチエージェントシステムが誕生する。複雑さの異なるタスク間で、マルチエージェントの議論がどのように機能するかは、いまだ不明である。 2022年から2024年までの20のマルチエージェント研究の分類について提案する。
論文参考訳（メタデータ） (2024-10-30T11:38:13Z)
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文参考訳（メタデータ） (2024-10-07T06:37:25Z)
TypedThinker: Diversify Large Language Model Reasoning with Typed Thinking [44.8904486513791]
大規模言語モデル(LLM)は複雑な問題を解決する上で強力な推論能力を示している。問題とそれ以前の有効性に基づいて適切な推論型を予測するTypedThinkerを提案する。 GPT-4oのようなより高度なシステムやMetaMathのような特殊なモデルに統合することで、推論アプローチを多様化し、問題解決能力を向上させることができる。
論文参考訳（メタデータ） (2024-10-02T18:54:45Z)
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文参考訳（メタデータ） (2024-09-11T17:37:48Z)
VC Search: Bridging the Gap Between Well-Defined and Ill-Defined Problems in Mathematical Reasoning [46.25056744404318]
5000以上の不確定な数学的問題を含むPMC(Issue with Missing and Contradictory conditions)というベンチマークを開発した。 VCSEARCHは、解決不可能な問題を特定する精度を、さまざまな大きな言語モデルで少なくとも12%向上させる。
論文参考訳（メタデータ） (2024-06-07T16:24:12Z)
CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving [9.446546965008249]
協調型マルチエージェント・マルチレゾニングパス(CoMM)プロンプトフレームワークを提案する。具体的には、LLMが問題解決チームで異なる役割を演じるように促し、異なるロールプレイエージェントが目的のタスクを協調的に解決するように促します。 2つの大学レベルの科学問題に対する提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-04-26T23:29:12Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning [53.35861580821777]
この研究は、過剰な要約による意見の自明化と、画像から導入された散逸した概念による焦点の転換という2つの主要な課題に対処する。この問題に対処するため,BDoG (Blueprint Debate on Graphs) と呼ばれる演目的(トップダウン)な議論手法を提案する。 BDoGでは、世界レベルの要約による意見の自明化を防止するために、ブループリントグラフに限定して議論を行う。さらに、BDoGはグラフ内の枝に証拠を格納することで、頻繁だが無関係な概念によって引き起こされる混乱を緩和する。
論文参考訳（メタデータ） (2024-03-22T06:03:07Z)
Learning to Break: Knowledge-Enhanced Reasoning in Multi-Agent Debate System [16.830182915504555]
マルチエージェント討論システム(MAD)は、真理を追求する人間の議論の過程を模倣する。様々なエージェントが、限られた知識の背景から、適切に、高度に一貫した認知をさせることは困難である。本稿では,Underline Knowledge-underlineEnhanced frameworkを用いたUnderlineMulti-underlineAgent UnderlineDebateを提案する。
論文参考訳（メタデータ） (2023-12-08T06:22:12Z)
Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文参考訳（メタデータ） (2023-12-04T18:58:57Z)
Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。 TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文参考訳（メタデータ） (2023-10-06T01:40:09Z)
Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [55.66353783572259]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文参考訳（メタデータ） (2023-08-23T04:59:21Z)
Surveying (Dis)Parities and Concerns of Compute Hungry NLP Research [75.84463664853125]
我々は,3つのトピック,すなわち環境影響,株式,およびピアレビューへの影響に関する懸念を定量化するための最初の試みを提供する。我々は、高齢者、アカデミック、産業に関して、異なるグループと異なるグループ内の既存の(異なる)格差を捉えます。私たちは、発見された格差を軽減するためのレコメンデーションを考案しました。
論文参考訳（メタデータ） (2023-06-29T12:44:53Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)
Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文参考訳（メタデータ） (2023-05-29T23:24:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。