論文の概要: Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2305.19118v4
- Date: Wed, 09 Oct 2024 02:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:28:42.150882
- Title: Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate
- Title(参考訳): マルチエージェント・ディベートによる大規模言語モデルにおけるダイバージェント思考の促進
- Authors: Tian Liang, Zhiwei He, Wenxiang Jiao, Xing Wang, Yan Wang, Rui Wang, Yujiu Yang, Shuming Shi, Zhaopeng Tu,
- Abstract要約: 複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
- 参考スコア(独自算出の注目度): 85.3444184685235
- License:
- Abstract: Modern large language models (LLMs) like ChatGPT have shown remarkable performance on general language tasks but still struggle on complex reasoning tasks, which drives the research on cognitive behaviors of LLMs to explore human-like problem-solving strategies. Along this direction, one representative strategy is self-reflection, which asks an LLM to refine the solution with the feedback generated by itself iteratively. However, our study shows that such reflection-style methods suffer from the Degeneration-of-Thought (DoT) problem: once the LLM has established confidence in its solutions, it is unable to generate novel thoughts later through reflection even if its initial stance is incorrect. To address the DoT problem, we propose a Multi-Agent Debate (MAD) framework, in which multiple agents express their arguments in the state of "tit for tat" and a judge manages the debate process to obtain a final solution. Clearly, our MAD framework encourages divergent thinking in LLMs which would be helpful for tasks that require deep levels of contemplation. Experiment results on two challenging datasets, commonsense machine translation and counter-intuitive arithmetic reasoning, demonstrate the effectiveness of our MAD framework. Extensive analyses suggest that the adaptive break of debate and the modest level of "tit for tat" state are required for MAD to obtain good performance. Moreover, we find that LLMs might not be a fair judge if different LLMs are used for agents. Code is available at https://github.com/Skytliang/Multi-Agents-Debate.
- Abstract(参考訳): ChatGPTのような現代の大規模言語モデル(LLM)は、一般的な言語タスクにおいて顕著なパフォーマンスを示したが、複雑な推論タスクに苦戦している。
この方向に沿って、ある代表的な戦略は自己回帰(self-reflection)であり、この戦略はLLMに対して、それ自体が反復的に生成したフィードバックでソリューションを洗練させるよう求めている。
しかし,本研究は,このようなリフレクションスタイルの手法が「脱生(DoT)問題」に悩まされていることを示唆している。
DoT問題に対処するために,複数のエージェントが"tit for tat"の状態で議論を表現し,審査員が議論プロセスを管理して最終解を得る,マルチエージェント議論(MAD)フレームワークを提案する。
明らかに、我々のMADフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励します。
2つの挑戦的データセット(コモンセンス機械翻訳と反直観的算術推論)の実験結果から,我々のMADフレームワークの有効性を実証した。
総合的な分析から,MADが良好な性能を得るためには,議論の適応的断裂と「試行錯誤状態」の質素なレベルが必要であることが示唆された。
さらに,異なるLSMをエージェントとして使用する場合,LSMは公平な判断にはならない可能性がある。
コードはhttps://github.com/Skytliang/Multi-Agents-Debateで入手できる。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs [45.38821594541265]
大規模言語モデル(LLM)は様々な自然言語処理タスクに優れるが、幻覚に苦しむ。
本稿では, LLM 固有のバイアスをオーバーライドして解答検査を行うために, CFMAD フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-17T13:21:23Z) - CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving [9.446546965008249]
協調型マルチエージェント・マルチレゾニングパス(CoMM)プロンプトフレームワークを提案する。
具体的には、LLMが問題解決チームで異なる役割を演じるように促し、異なるロールプレイエージェントが目的のタスクを協調的に解決するように促します。
2つの大学レベルの科学問題に対する提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-04-26T23:29:12Z) - How Far Are We from Intelligent Visual Deductive Reasoning? [41.4377002379162]
私たちは、より洗練されているが探求の少ない領域である、視覚に基づく誘惑的推論を掘り下げる。
現在のSOTA VLMでは、未公表の盲点が発見されている。
LLMに適用した場合に有効な標準的な戦略は、視覚的推論タスクによってもたらされる課題にシームレスに対応しないことがわかった。
論文 参考訳(メタデータ) (2024-03-07T18:35:54Z) - Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the
Key? [84.36332588191623]
本稿では,議論機構の集合を充実させる新しいグループディスカッションフレームワークを提案する。
マルチエージェントの議論は,プロンプトに実演がない場合にのみ,単一のエージェントよりも優れていることが観察された。
論文 参考訳(メタデータ) (2024-02-28T12:04:05Z) - Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。
評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。
我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete Information from Lateral Thinking Puzzles [22.119796373133298]
インタラクティブなフレームワーク内でモデルの横方向の思考を評価する新しい評価ベンチマークであるLatEvalを提案する。
本ベンチマークでは,モデルが提示する質問の質と,問題解決のための情報の統合能力の2つの側面でLCMに挑戦する。
例えば、最も先進的なモデルであるGPT-4でさえある程度の優位性を示しているが、人間と比較しても顕著なギャップは維持されている。
論文 参考訳(メタデータ) (2023-08-21T16:49:40Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。