論文の概要: Towards Reasoning in Large Language Models via Multi-Agent Peer Review
Collaboration
- arxiv url: http://arxiv.org/abs/2311.08152v2
- Date: Sun, 17 Dec 2023 13:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:48:58.974372
- Title: Towards Reasoning in Large Language Models via Multi-Agent Peer Review
Collaboration
- Title(参考訳): 多言語ピアレビューによる大規模言語モデルの推論に向けて
- Authors: Zhenran Xu, Senbao Shi, Baotian Hu, Jindi Yu, Dongfang Li, Min Zhang,
Yuxiang Wu
- Abstract要約: 大規模言語モデル(LLM)は、一般的な自然言語処理タスクにおいて顕著な能力を示しているが、複雑な推論タスクでは不足することが多い。
近年の研究では、自己正当性のような人間的な問題解決戦略を探求し、単一モデル推論能力の境界を推し進めている。
学術的ピアレビュープロセスをエミュレートするマルチエージェントコラボレーション戦略を導入する。
- 参考スコア(独自算出の注目度): 28.299379264080603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable capabilities in general
natural language processing tasks but often fall short in complex reasoning
tasks. Recent studies have explored human-like problem-solving strategies, such
as self-correct, to push further the boundary of single-model reasoning
ability. In this work, we let a single model "step outside the box" by engaging
multiple models to correct each other. We introduce a multi-agent collaboration
strategy that emulates the academic peer review process. Each agent
independently constructs its own solution, provides reviews on the solutions of
others, and assigns confidence levels to its reviews. Upon receiving peer
reviews, agents revise their initial solutions. Extensive experiments on three
different types of reasoning tasks show that our collaboration approach
delivers superior accuracy across all ten datasets compared to existing
methods. Further study underscores the effectiveness of integrating confidence
in reviews, demonstrates the superiority of feedback exchange over mere
solution sharing, and highlights the role of capability and diversity in
fostering successful collaboration.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般的な自然言語処理タスクにおいて顕著な能力を示しているが、複雑な推論タスクでは不足することが多い。
近年の研究では、単モデル推論能力の境界をさらに押し上げるために、自己修正のような人間的な問題解決戦略が研究されている。
この作業では、複数のモデルを互いに修正することで、1つのモデルを"ボックスの外へステップ"させます。
学術的ピアレビュープロセスをエミュレートするマルチエージェント・コラボレーション戦略を提案する。
各エージェントは独立して独自のソリューションを構築し、他人のソリューションに関するレビューを提供し、信頼性レベルをレビューに割り当てる。
ピアレビューを受けると、エージェントは初期ソリューションを改訂する。
3種類の推論タスクに関する大規模な実験は、我々のコラボレーションアプローチが既存の方法と比較して10のデータセットすべてに優れた精度を提供することを示している。
さらなる研究は、レビューにおける信頼性の統合の有効性を強調し、単なるソリューション共有よりもフィードバック交換の方が優れていることを示し、コラボレーションを成功させる上での能力と多様性の役割を強調している。
関連論文リスト
- PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate [24.92465108034783]
大規模言語モデル(LLM)は、個別に作業する場合に、現在のベンチマークで例外的な結果を示す。
パラメータサイズと推論時間の短縮とともに、それらの能力の進歩は、これらのモデルをエージェントとしての使用を促進する。
敵の影響下での議論を通じて協調するモデルのネットワークの挙動を評価する。
論文 参考訳(メタデータ) (2024-06-20T20:09:37Z) - Brainstorming Brings Power to Large Language Models of Knowledge Reasoning [17.14501985068287]
大規模言語モデル(LLM)は、言語生成、テキスト理解、知識推論において驚くべき能力を示した。
近年の研究では、多モデルコラボレーションの導入により、幅広いタスクにおけるモデルの推論能力が向上している。
本稿では,インプットに基づくマルチモデルブレインストーミングを提案する。ブレインストーミングのためのグループに,複数の推論と再推論のラウンドを組み込んだ結果,コンセンサスな回答が得られた。
論文 参考訳(メタデータ) (2024-06-02T14:47:14Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement [50.62461749446111]
Self-Polish(SP)は、与えられた問題を徐々に洗練し、より理解しやすく解けるように誘導することによって、モデルの推論を促進する新しい方法である。
SPは、CoTのような答え/推論サイドの他のすべてのプロンプトメソッドであり、最先端の技術とのシームレスな統合を可能にし、さらなる改善を可能にします。
論文 参考訳(メタデータ) (2023-05-23T19:58:30Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。