論文の概要: Encouraging Divergent Thinking in Large Language Models through
Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2305.19118v1
- Date: Tue, 30 May 2023 15:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 15:34:50.200335
- Title: Encouraging Divergent Thinking in Large Language Models through
Multi-Agent Debate
- Title(参考訳): マルチエージェント討論による大規模言語モデルにおける異種思考の促進
- Authors: Tian Liang, Zhiwei He, Wenxiang Jiao, Xing Wang, Yan Wang, Rui Wang,
Yujiu Yang, Zhaopeng Tu, Shuming Shi
- Abstract要約: 複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
- 参考スコア(独自算出の注目度): 56.23037393834715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs) like ChatGPT have shown remarkable
performance on general language tasks but still struggle on complex reasoning
tasks, which drives the research on cognitive behaviors of LLMs to explore
human-like problem-solving strategies. Along this direction, one representative
strategy is self-reflection, which asks an LLM to refine the solution with the
feedback generated by itself iteratively. However, our study shows that such
reflection-style methods suffer from the Degeneration-of-Thought (DoT) problem:
once the LLM has established confidence in its solutions, it is unable to
generate novel thoughts later through reflection even if its initial stance is
incorrect. To address the DoT problem, we propose a Multi-Agent Debate (MAD)
framework, in which multiple agents express their arguments in the state of
"tit for tat" and a judge manages the debate process to obtain a final
solution. Clearly, our MAD framework encourages divergent thinking in LLMs
which would be helpful for tasks that require deep levels of contemplation.
Experiment results on two challenging datasets, commonsense machine translation
and counter-intuitive arithmetic reasoning, demonstrate the effectiveness of
our MAD framework. Extensive analyses suggest that the adaptive break of debate
and the modest level of "tit for tat" state are required for MAD to obtain good
performance. Moreover, we find that LLMs might not be a fair judge if different
LLMs are used for agents. Codes:
https://github.com/Skytliang/Multi-Agents-Debate
- Abstract(参考訳): ChatGPTのような現代の大規模言語モデル(LLM)は、一般的な言語タスクにおいて顕著なパフォーマンスを示したが、複雑な推論タスクに苦戦している。
この方向に沿って、1つの代表的な戦略は自己回帰であり、llmに反復的に生成したフィードバックでソリューションを洗練するよう要求する。
しかし,本研究は,このようなリフレクションスタイルの手法が「脱生(DoT)問題」に悩まされていることを示唆している。
DoT問題に対処するために,複数のエージェントが"tit for tat"の状態で議論を表現し,審査員が議論プロセスを管理して最終解を得る,マルチエージェント議論(MAD)フレームワークを提案する。
明らかに、我々のMADフレームワークは、深い熟考を必要とするタスクに役に立つLSMにおける分岐思考を促進する。
2つの挑戦的データセット(コモンセンス機械翻訳と反直観的算術推論)の実験結果から,MADフレームワークの有効性が示された。
総合的な分析から,MADが良好な性能を得るためには,議論の適応的断裂と「試行錯誤状態」の質素なレベルが必要であることが示唆された。
さらに,異なるLSMをエージェントとして使用する場合,LSMは公平な判断にはならない可能性がある。
コード:https://github.com/Skytliang/Multi-Agents-Debate
関連論文リスト
- How Far Are We from Intelligent Visual Deductive Reasoning? [43.51562357823971]
私たちは、より洗練されているが探求の少ない領域である、視覚に基づく誘惑的推論を掘り下げる。
現在のSOTA VLMでは、未公表の盲点が発見されている。
LLMに適用した場合に有効な標準的な戦略は、視覚的推論タスクによってもたらされる課題にシームレスに対応しないことがわかった。
論文 参考訳(メタデータ) (2024-03-07T18:35:54Z) - Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the
Key? [84.36332588191623]
本稿では,議論機構の集合を充実させる新しいグループディスカッションフレームワークを提案する。
マルチエージェントの議論は,プロンプトに実演がない場合にのみ,単一のエージェントよりも優れていることが観察された。
論文 参考訳(メタデータ) (2024-02-28T12:04:05Z) - Self-Contrast: Better Reflection Through Inconsistent Solving
Perspectives [48.17091109203949]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文 参考訳(メタデータ) (2024-01-04T00:32:33Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete
Information from Lateral Thinking Puzzles [23.229009502796316]
インタラクティブなフレームワーク内でモデルの横方向の思考を評価する新しい評価ベンチマークであるLatEvalを提案する。
本ベンチマークでは,モデルが提示する質問の質と,問題解決のための情報の統合能力の2つの側面でLCMに挑戦する。
例えば、最も先進的なモデルであるGPT-4でさえある程度の優位性を示しているが、人間と比較しても顕著なギャップは維持されている。
論文 参考訳(メタデータ) (2023-08-21T16:49:40Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。