Fugu-MT 論文翻訳(概要): MALT: Improving Reasoning with Multi-Agent LLM Training

論文の概要: MALT: Improving Reasoning with Multi-Agent LLM Training

arxiv url: http://arxiv.org/abs/2412.01928v2
Date: Thu, 27 Feb 2025 11:25:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.281341
Title: MALT: Improving Reasoning with Multi-Agent LLM Training
Title（参考訳）: MALT:マルチエージェントLDMトレーニングによる推論の改善
Authors: Sumeet Ramesh Motwani, Chandler Smith, Rocktim Jyoti Das, Rafael Rafailov, Ivan Laptev, Philip H. S. Torr, Fabio Pizzati, Ronald Clark, Christian Schroeder de Witt,
Abstract要約: MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。 MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
参考スコア（独自算出の注目度）: 66.9481561915524
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) often produce answers with a single chain-of-thought, which restricts their ability to explore reasoning paths or self-correct flawed outputs in complex tasks. In this paper, we introduce MALT (Multi-Agent LLM Training), a novel post-training strategy that divides the reasoning process into generation, verification, and refinement steps using a sequential pipeline of heterogeneous agents. During data generation, each agent is repeatedly sampled to form a multi-agent search tree, where final outputs are graded against ground-truth data. We then apply value iteration to propagate reward signals back to each role-conditioned model, automatically producing multi-agent post-training data without human or teacher-model supervision. Our off-policy approach allows each agent to specialize by learning from correct and incorrect trajectories, ultimately improving the end-to-end reasoning chain. On MATH, GSM8K, and CSQA, MALT surpasses the same baseline LLM with a relative improvement of 15.66%, 7.42%, and 9.40% respectively, making it an important advance towards multi-agent cooperative training.
Abstract（参考訳）: 大きな言語モデル(LLM)は、複雑なタスクにおいて、推論パスや自己修正された欠陥のあるアウトプットを探索する能力を制限する、単一のチェーン・オブ・シントで答を生成することが多い。本稿では,MALT(Multi-Agent LLM Training)について紹介する。MALT(Multi-Agent LLM Training)は,異種エージェントの逐次パイプラインを用いて推論過程を生成,検証,精錬工程に分割する,新しいポストトレーニング戦略である。データ生成中、各エージェントを繰り返しサンプリングしてマルチエージェント検索ツリーを形成し、最終的な出力を地上データに対してグレードする。次に、各ロール条件付きモデルに対して報酬信号の伝達に価値反復を適用し、人間や教師のモデル監督なしにマルチエージェントのポストトレーニングデータを自動的に生成する。我々の非政治的アプローチは、各エージェントが正しい軌道から学習し、最終的にはエンドツーエンドの推論チェーンを改善することによって、専門化を可能にします。 MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善により、同じベースライン LLM を上回り、マルチエージェント協調トレーニングへの重要な進歩となった。

関連論文リスト

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems [20.971694319263353]
マルチエージェントLLMシステムのためのシンプルで安定したRLトレーニングレシピであるDr. MASを提案する。 MAS博士はエージェントワイド療法を使用し、各エージェントの報酬統計を用いてエージェントごとの利益を正規化する。 MASはマルチエージェントLLMシステムのためのエンドツーエンドのRLトレーニングフレームワークを提供する。
論文参考訳（メタデータ） (2026-02-09T16:13:39Z)
AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文参考訳（メタデータ） (2026-02-03T19:18:28Z)
Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文参考訳（メタデータ） (2025-12-03T04:42:47Z)
Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO [24.532870400949424]
現在の訓練方法は、システム内のすべてのエージェントに対して統一された大きな言語モデルを訓練する。これにより、異なるエージェントの基本的な分布が異なるため、パフォーマンスが制限される可能性がある。垂直多エージェントシステムに対するグループ相対ポリシー最適化の階層的拡張であるM-GRPOを提案する。
論文参考訳（メタデータ） (2025-11-17T12:06:30Z)
AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。 AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文参考訳（メタデータ） (2025-11-11T14:57:54Z)
AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-05T13:40:01Z)
How to Train a Leader: Hierarchical Reasoning in Multi-Agent LLMs [16.853362180877593]
我々は、訓練されていないピアエージェントのチームを調整するために、単一のリーダーLDMのみを訓練する階層的なマルチエージェントフレームワークを導入する。本結果は,複数エージェントLLMシステムにおける協調推論のための単一柔軟なリーダのトレーニングの有効性と効率性を強調した。
論文参考訳（メタデータ） (2025-07-11T18:34:07Z)
Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。 LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文参考訳（メタデータ） (2025-05-21T09:35:43Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文参考訳（メタデータ） (2025-03-19T14:46:53Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文参考訳（メタデータ） (2024-12-22T15:16:44Z)
Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。 API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文参考訳（メタデータ） (2024-11-29T08:47:04Z)
Mars-PO: Multi-Agent Reasoning System Preference Optimization [16.145823558485393]
大規模言語モデル(LLM)の数学的推論能力を改善するための新しいフレームワークであるMars-POを提案する。複数のエージェントからの高品質な出力をハイブリッドな正のサンプルセットに組み合わせ、エージェント固有の負のサンプルと組み合わせて、トレーニングのための堅牢な選好ペアを構築する。個々の弱点に対処しながら、エージェントを共有陽性のサンプルと整列させることで、Mars-POは数学的推論ベンチマークで大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2024-11-28T10:35:16Z)
Optimizing Collaboration of LLM based Agents for Finite Element Analysis [1.5039745292757671]
本稿では,Large Language Models (LLM) 内の複数のエージェント間の相互作用について,プログラミングおよびコーディングタスクの文脈で検討する。我々はAutoGenフレームワークを利用してエージェント間の通信を容易にし、各セットアップの40のランダムランからの成功率に基づいて異なる構成を評価する。
論文参考訳（メタデータ） (2024-08-23T23:11:08Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions [8.55917897789612]
我々は、共通の目標を持つ複数のエージェントの協調作業と、それら間のコミュニケーションに焦点を当てる。また、フレームワークの言語コンポーネントによって実現されるヒューマン・イン・オン・ザ・ループのシナリオについても検討する。
論文参考訳（メタデータ） (2024-05-17T22:10:23Z)
Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning [14.635361844362794]
Smurfs'は、大規模言語モデルの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークである。 Smurfは、余分なコストなしで複雑なタスクを解くモデルの能力を高めることができる。
論文参考訳（メタデータ） (2024-05-09T17:49:04Z)
Large Language Model-based Human-Agent Collaboration for Complex Task Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。 Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文参考訳（メタデータ） (2024-02-20T11:03:36Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Learning From Good Trajectories in Offline Multi-Agent Reinforcement Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-28T18:11:26Z)
Scalable Multi-Agent Inverse Reinforcement Learning via Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-24T20:30:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。