論文の概要: Diversity of Thought Elicits Stronger Reasoning Capabilities in Multi-Agent Debate Frameworks
- arxiv url: http://arxiv.org/abs/2410.12853v1
- Date: Thu, 10 Oct 2024 21:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:11:12.154387
- Title: Diversity of Thought Elicits Stronger Reasoning Capabilities in Multi-Agent Debate Frameworks
- Title(参考訳): マルチエージェント・ディベート・フレームワークにおける思考の多様性による推論能力の強化
- Authors: Mahmood Hegazy,
- Abstract要約: 大規模言語モデルの推論と事実的正確性を改善するために, 思考の促進, 自己検証, マルチエージェントの議論が提案されている。
マルチエージェントの議論はどんなモデルスケールでも有効であり、思考の多様性はLLMの議論においてより強力な推論をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) excel in natural language generation but often confidently produce incorrect responses, especially in tasks like mathematical reasoning. Chain-of-thought prompting, self-verification, and multi-agent debate are among the strategies proposed to improve the reasoning and factual accuracy of LLMs. Building on Du et al.'s multi-agent debate framework, we find that multi-agent debate helps at any model scale, and that diversity of thought elicits stronger reasoning in debating LLMs. Across various model sizes, performance on mathematical reasoning tasks benefits most when diverse trained models are used. Remarkably, after 4 rounds of debate, a diverse set of medium-capacity models (Gemini-Pro, Mixtral 7BX8, and PaLM 2-M) outperforms GPT-4 on the GSM-8K benchmark, scoring 91% accuracy. By comparison, when 3 instances of Gemini-Pro are used, performance only reaches 82%. Finally, this diverse set of medium-capacity models sets a new state-of-the-art performance on the ASDiv benchmark (94%). These results underscore the idea that the future of AI is agentic, with diverse cooperating agents yielding emergent capabilities beyond even the most powerful individual models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語生成において優れているが、特に数学的推論のようなタスクにおいて、しばしば不正確な応答を確実に生成する。
思考の促進、自己検証、マルチエージェントの議論は、LCMの推論と事実的正確性を改善するために提案された戦略の1つである。
Du et al のマルチエージェントの議論フレームワークをベースとして、マルチエージェントの議論はどんなモデルスケールでも有効であり、思考の多様性は LLM の議論においてより強力な推論をもたらす。
様々なモデルサイズにまたがって、数学的推論タスクのパフォーマンスは、様々な訓練されたモデルを使用する場合に最も有用である。
4回の議論の後、様々な中容量モデル(Gemini-Pro、Mixtral 7BX8、PaLM 2-M)がGSM-8KベンチマークでGPT-4を上回っ、91%の精度を記録した。
対照的に、Gemini-Proの3つのインスタンスを使用する場合、パフォーマンスは82%に過ぎません。
最後に、この多種多様な中容量モデルによって、ASDivベンチマーク(94%)で新しい最先端のパフォーマンスが設定される。
これらの結果は、AIの未来はエージェント的であり、最も強力な個々のモデルを超えた創発的な能力をもたらす多様な協調エージェントである、という考えを強調している。
関連論文リスト
- MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate [24.92465108034783]
大規模言語モデル(LLM)は、個別に作業する場合に、現在のベンチマークで例外的な結果を示す。
パラメータサイズと推論時間の短縮とともに、それらの能力の進歩は、これらのモデルをエージェントとしての使用を促進する。
敵の影響下での議論を通じて協調するモデルのネットワークの挙動を評価する。
論文 参考訳(メタデータ) (2024-06-20T20:09:37Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Combating Adversarial Attacks with Multi-Agent Debate [4.450536872346658]
我々は、現在の最先端言語モデル間のマルチエージェントの議論を実施し、レッドチームアタックに対するモデルの感受性を評価する。
マルチエージェントの議論は、ジェイルブレイクや能力の低いモデルが非ジェイルブレイクやより有能なモデルで議論せざるを得ない場合、モデルの毒性を低下させる可能性がある。
論文 参考訳(メタデータ) (2024-01-11T15:57:38Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Mixed Distillation Helps Smaller Language Model Better Reasoning [27.934081882868902]
本稿では,大規模言語モデル (LLM) におけるプログラム・オブ・シント (PoT) とチェーン・オブ・シント (CoT) の強みを生かした混合蒸留 (MD) フレームワークを紹介する。
実験の結果, MDは, 様々なタスクにおいて, より小さなモデルのシングルパスとマルチパス推論能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-17T14:28:28Z) - Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large
Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。
しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。
本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T08:07:21Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs [61.07130026622437]
大規模言語モデル(LLM)は、まだ自然言語推論タスクに苦戦している。
心の社会に動機づけられて、我々はReConcileを提案する。
LLMエージェント間のラウンドテーブル会議として設計されたマルチモデルマルチエージェントフレームワーク。
論文 参考訳(メタデータ) (2023-09-22T17:12:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。