論文の概要: MALT: Improving Reasoning with Multi-Agent LLM Training
- arxiv url: http://arxiv.org/abs/2412.01928v1
- Date: Mon, 02 Dec 2024 19:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:17.972750
- Title: MALT: Improving Reasoning with Multi-Agent LLM Training
- Title(参考訳): MALT:マルチエージェントLDMトレーニングによる推論の改善
- Authors: Sumeet Ramesh Motwani, Chandler Smith, Rocktim Jyoti Das, Markian Rybchuk, Philip H. S. Torr, Ivan Laptev, Fabio Pizzati, Ronald Clark, Christian Schroeder de Witt,
- Abstract要約: 推論問題に対するマルチエージェントLLMトレーニング(MALT)に向けた第一歩を提示する。
提案手法では,ヘテロジニアスLSMが割り当てられた逐次的マルチエージェント構成を用いる。
我々は,MATH,GSM8k,CQAにまたがるアプローチを評価し,MALT on Llama 3.1 8Bモデルでそれぞれ14.14%,7.12%,9.40%の相対的な改善を実現した。
- 参考スコア(独自算出の注目度): 64.13803241218886
- License:
- Abstract: Enabling effective collaboration among LLMs is a crucial step toward developing autonomous systems capable of solving complex problems. While LLMs are typically used as single-model generators, where humans critique and refine their outputs, the potential for jointly-trained collaborative models remains largely unexplored. Despite promising results in multi-agent communication and debate settings, little progress has been made in training models to work together on tasks. In this paper, we present a first step toward "Multi-agent LLM training" (MALT) on reasoning problems. Our approach employs a sequential multi-agent setup with heterogeneous LLMs assigned specialized roles: a generator, verifier, and refinement model iteratively solving problems. We propose a trajectory-expansion-based synthetic data generation process and a credit assignment strategy driven by joint outcome based rewards. This enables our post-training setup to utilize both positive and negative trajectories to autonomously improve each model's specialized capabilities as part of a joint sequential system. We evaluate our approach across MATH, GSM8k, and CQA, where MALT on Llama 3.1 8B models achieves relative improvements of 14.14%, 7.12%, and 9.40% respectively over the same baseline model. This demonstrates an early advance in multi-agent cooperative capabilities for performance on mathematical and common sense reasoning questions. More generally, our work provides a concrete direction for research around multi-agent LLM training approaches.
- Abstract(参考訳): LLM間の効果的なコラボレーションの実現は、複雑な問題を解決することのできる自律システムを開発するための重要なステップである。
LLMは一般的に単一モデルジェネレータとして使用され、人間は出力を批判し洗練するが、共同で訓練された協調モデルの可能性はほとんど探索されていない。
マルチエージェントコミュニケーションと議論の設定で有望な結果が得られたにもかかわらず、タスクで一緒に働くためのトレーニングモデルでは、ほとんど進歩していない。
本稿では,「マルチエージェントLLMトレーニング(MALT)」における推論問題への第一歩について述べる。
提案手法では, ジェネレータ, 検証器, 精細化モデルなど, 不均一なLLMが割り当てられた逐次的マルチエージェント構成を用いて, 問題を反復的に解決する。
本稿では, トラジェクティブ・エクスパンジョンに基づく合成データ生成プロセスと, 共同成果に基づく報酬によって駆動されるクレジット代入戦略を提案する。
これにより、トレーニング後のセットアップでは、正と負の両方の軌道を利用して、共同シーケンスシステムの一部として、各モデルの特殊能力を自律的に改善することができる。
我々は,MATH,GSM8k,CQAにまたがるアプローチを評価し,Llama 3.1 8BモデルのMALTは,同じベースラインモデルに対してそれぞれ14.14%,7.12%,9.40%の相対的な改善を達成している。
このことは、数学的および常識推論問題におけるパフォーマンスのためのマルチエージェント協調能力の初期の進歩を示している。
より一般的に、我々の研究はマルチエージェントLSMトレーニングアプローチに関する研究の具体的な方向性を提供する。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Mars-PO: Multi-Agent Reasoning System Preference Optimization [16.145823558485393]
大規模言語モデル(LLM)の数学的推論能力を改善するための新しいフレームワークであるMars-POを提案する。
複数のエージェントからの高品質な出力をハイブリッドな正のサンプルセットに組み合わせ、エージェント固有の負のサンプルと組み合わせて、トレーニングのための堅牢な選好ペアを構築する。
個々の弱点に対処しながら、エージェントを共有陽性のサンプルと整列させることで、Mars-POは数学的推論ベンチマークで大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-11-28T10:35:16Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning [13.753960633998389]
強化学習 (Reinforcement Learning, RL) は, 特定のタスクにおいて, 大規模言語モデル (LLM) を微調整するための重要な手法として登場した。
本稿では,LLMのRL微調整を逐次協調型マルチエージェント強化学習フレームワークに拡張したCORYを提案する。
その結果,CORYは政策最適性,分散崩壊抵抗性,ロバスト性の訓練においてPPOよりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T14:55:26Z) - Optimizing Collaboration of LLM based Agents for Finite Element Analysis [1.5039745292757671]
本稿では,Large Language Models (LLM) 内の複数のエージェント間の相互作用について,プログラミングおよびコーディングタスクの文脈で検討する。
我々はAutoGenフレームワークを利用してエージェント間の通信を容易にし、各セットアップの40のランダムランからの成功率に基づいて異なる構成を評価する。
論文 参考訳(メタデータ) (2024-08-23T23:11:08Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions [8.55917897789612]
我々は、共通の目標を持つ複数のエージェントの協調作業と、それら間のコミュニケーションに焦点を当てる。
また、フレームワークの言語コンポーネントによって実現されるヒューマン・イン・オン・ザ・ループのシナリオについても検討する。
論文 参考訳(メタデータ) (2024-05-17T22:10:23Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。