Fugu-MT 論文翻訳(概要): Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate

論文の概要: Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate

arxiv url: http://arxiv.org/abs/2305.19118v1
Date: Tue, 30 May 2023 15:25:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 15:34:50.200335
Title: Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate
Title（参考訳）: マルチエージェント討論による大規模言語モデルにおける異種思考の促進
Authors: Tian Liang, Zhiwei He, Wenxiang Jiao, Xing Wang, Yan Wang, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi
Abstract要約: 複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
参考スコア（独自算出の注目度）: 56.23037393834715
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern large language models (LLMs) like ChatGPT have shown remarkable performance on general language tasks but still struggle on complex reasoning tasks, which drives the research on cognitive behaviors of LLMs to explore human-like problem-solving strategies. Along this direction, one representative strategy is self-reflection, which asks an LLM to refine the solution with the feedback generated by itself iteratively. However, our study shows that such reflection-style methods suffer from the Degeneration-of-Thought (DoT) problem: once the LLM has established confidence in its solutions, it is unable to generate novel thoughts later through reflection even if its initial stance is incorrect. To address the DoT problem, we propose a Multi-Agent Debate (MAD) framework, in which multiple agents express their arguments in the state of "tit for tat" and a judge manages the debate process to obtain a final solution. Clearly, our MAD framework encourages divergent thinking in LLMs which would be helpful for tasks that require deep levels of contemplation. Experiment results on two challenging datasets, commonsense machine translation and counter-intuitive arithmetic reasoning, demonstrate the effectiveness of our MAD framework. Extensive analyses suggest that the adaptive break of debate and the modest level of "tit for tat" state are required for MAD to obtain good performance. Moreover, we find that LLMs might not be a fair judge if different LLMs are used for agents. Codes: https://github.com/Skytliang/Multi-Agents-Debate
Abstract（参考訳）: ChatGPTのような現代の大規模言語モデル(LLM)は、一般的な言語タスクにおいて顕著なパフォーマンスを示したが、複雑な推論タスクに苦戦している。この方向に沿って、1つの代表的な戦略は自己回帰であり、llmに反復的に生成したフィードバックでソリューションを洗練するよう要求する。しかし,本研究は,このようなリフレクションスタイルの手法が「脱生(DoT)問題」に悩まされていることを示唆している。 DoT問題に対処するために,複数のエージェントが"tit for tat"の状態で議論を表現し,審査員が議論プロセスを管理して最終解を得る,マルチエージェント議論(MAD)フレームワークを提案する。明らかに、我々のMADフレームワークは、深い熟考を必要とするタスクに役に立つLSMにおける分岐思考を促進する。 2つの挑戦的データセット(コモンセンス機械翻訳と反直観的算術推論)の実験結果から,MADフレームワークの有効性が示された。総合的な分析から,MADが良好な性能を得るためには,議論の適応的断裂と「試行錯誤状態」の質素なレベルが必要であることが示唆された。さらに,異なるLSMをエージェントとして使用する場合,LSMは公平な判断にはならない可能性がある。コード:https://github.com/Skytliang/Multi-Agents-Debate

関連論文リスト

Introspection of Thought Helps AI Agents [19.04968632268433]
大規模言語モデル(LLM)とマルチモーダルLLM(MLLM)が最も重要な役割を担い、AIエージェントの初期能力と限界を決定する。本稿では,新しいLLM-Read コードを即座に設計することで,思考のイントロスペクション(INoT)を用いたAIエージェント推論フレームワークを提案する。 INoTの有効性は, 平均性能が7.95%向上し, ベースラインを超えることが確認された。
論文参考訳（メタデータ） (2025-07-11T15:03:17Z)
CortexDebate: Debating Sparsely and Equally for Multi-Agent Debate [11.155092859033784]
単一大言語モデル(LLM)の問題を緩和するための効果的な戦略としてマルチエージェント議論(MAD)が登場した。既存のMAD手法では、 (a) LLMエージェントが多くの入力情報に紛失し、性能低下を経験する、 (b) 自信過剰なジレンマ(自己保証LDMエージェントが議論を支配し、議論の有効性を低くする、という2つの問題に直面している。そこで我々は,ヒトの脳に着想を得た新しいMAD手法"CortexDebate"を提案する。
論文参考訳（メタデータ） (2025-07-05T07:23:15Z)
Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。 CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-03T09:11:15Z)
MARCO: Meta-Reflection with Cross-Referencing for Code Reasoning [37.0077348617437]
我々は、LLMエージェントが提案するソリューションごとにコード推論において徐々に賢くなる方法を探る。認知進化的視点を取り入れたメタリフレクション(Meta-Reflection with Cross-Reference, MARCO)という新しいフレームワークを提案する。コード推論において,様々なデータセットに対して実験を行い,MARCOの有効性を実証した。
論文参考訳（メタデータ） (2025-05-23T05:21:11Z)
CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文参考訳（メタデータ） (2025-03-30T20:03:36Z)
Solving Situation Puzzles with Large Language Model and External Reformulation [6.793639595476304]
大規模言語モデル(LLM)は複数ラウンドの対話を必要とする推論ではうまく機能しないことを示す。本稿では,新たな外的改革手法を提案する。そこでは,何回かのQ&Aの後,状況パズルを再構成する。実験では, LLMを状況問題の解決に用いた手法よりも優れた性能(例えば, 勝率, 質問数, ゲス試行数)を示す。
論文参考訳（メタデータ） (2025-03-24T07:05:55Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
Enhancing LLM Reasoning with Multi-Path Collaborative Reactive and Reflection agents [26.645038049346255]
マルチパス推論(Multi-Path Reasoning:RR-MP)フレームワークを用いたリアクティブおよびリフレクションエージェントを提案する。提案手法は,マルチパス推論機構を用いて科学的推論精度を向上させる。道徳的シナリオ,大学レベルの物理,数学に関わる課題について,ゼロショットと少数ショットの評価を行った。
論文参考訳（メタデータ） (2024-12-31T13:11:20Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs [45.38821594541265]
大規模言語モデル(LLM)は様々な自然言語処理タスクに優れるが、幻覚に苦しむ。本稿では, LLM 固有のバイアスをオーバーライドして解答検査を行うために, CFMAD フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-17T13:21:23Z)
CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving [9.446546965008249]
協調型マルチエージェント・マルチレゾニングパス(CoMM)プロンプトフレームワークを提案する。具体的には、LLMが問題解決チームで異なる役割を演じるように促し、異なるロールプレイエージェントが目的のタスクを協調的に解決するように促します。 2つの大学レベルの科学問題に対する提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-04-26T23:29:12Z)
Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [68.83624133567213]
そこで本研究では,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。また, モデルに対して, 合成推論を積極的に行うための, 単純かつ効果的な手法であるアクティブ推論(AD)を提案する。
論文参考訳（メタデータ） (2024-04-19T15:53:27Z)
How Far Are We from Intelligent Visual Deductive Reasoning? [41.4377002379162]
私たちは、より洗練されているが探求の少ない領域である、視覚に基づく誘惑的推論を掘り下げる。現在のSOTA VLMでは、未公表の盲点が発見されている。 LLMに適用した場合に有効な標準的な戦略は、視覚的推論タスクによってもたらされる課題にシームレスに対応しないことがわかった。
論文参考訳（メタデータ） (2024-03-07T18:35:54Z)
Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the Key? [84.36332588191623]
本稿では,議論機構の集合を充実させる新しいグループディスカッションフレームワークを提案する。マルチエージェントの議論は,プロンプトに実演がない場合にのみ,単一のエージェントよりも優れていることが観察された。
論文参考訳（メタデータ） (2024-02-28T12:04:05Z)
Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文参考訳（メタデータ） (2024-02-27T22:07:52Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete Information from Lateral Thinking Puzzles [22.119796373133298]
インタラクティブなフレームワーク内でモデルの横方向の思考を評価する新しい評価ベンチマークであるLatEvalを提案する。本ベンチマークでは,モデルが提示する質問の質と,問題解決のための情報の統合能力の2つの側面でLCMに挑戦する。例えば、最も先進的なモデルであるGPT-4でさえある程度の優位性を示しているが、人間と比較しても顕著なギャップは維持されている。
論文参考訳（メタデータ） (2023-08-21T16:49:40Z)
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。本稿では,この新技術について概観する。
論文参考訳（メタデータ） (2023-08-06T18:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。