Fugu-MT 論文翻訳(概要): Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic

論文の概要: Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic

arxiv url: http://arxiv.org/abs/2601.21972v2
Date: Wed, 04 Feb 2026 02:30:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-05 15:07:33.605222
Title: Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic
Title（参考訳）: 多エージェントアクター批判を用いた分散LLM協調学習
Authors: Shuo Liu, Tianle Chen, Ryan Amiri, Christopher Amato,
Abstract要約: 分散LLMコラボレーションは、実際により魅力的です。これらの問題に対処するため、MARLではアクタークリティカルな手法が一般的である。我々は2つのMAACアプローチ,textbfCoLLM-CC with a textbfCritics, textbfCoLLM-DC with textbfDecentralized textbfCriticsを提案する。
参考スコア（独自算出の注目度）: 11.375009887852185
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent work has explored optimizing LLM collaboration through Multi-Agent Reinforcement Learning (MARL). However, most MARL fine-tuning approaches rely on predefined execution protocols, which often require centralized execution. Decentralized LLM collaboration is more appealing in practice, as agents can run inference in parallel with flexible deployments. Also, current approaches use Monte Carlo methods for fine-tuning, which suffer from high variance and thus require more samples to train effectively. Actor-critic methods are prevalent in MARL for dealing with these issues, so we developed Multi-Agent Actor-Critic (MAAC) methods to optimize decentralized LLM collaboration. In this paper, we analyze when and why these MAAC methods are beneficial. We propose 2 MAAC approaches, \textbf{CoLLM-CC} with a \textbf{C}entralized \textbf{C}ritic and \textbf{CoLLM-DC} with \textbf{D}ecentralized \textbf{C}ritics. Our experiments across writing, coding, and game-playing domains show that Monte Carlo methods and CoLLM-DC can achieve performance comparable to CoLLM-CC in short-horizon and dense-reward settings. However, they both underperform CoLLM-CC on long-horizon or sparse-reward tasks, where Monte Carlo methods require substantially more samples and CoLLM-DC struggles to converge. Our code is available at https://github.com/OpenMLRL/CoMLRL/releases/tag/v1.3.2.
Abstract（参考訳）: 近年,MARL(Multi-Agent Reinforcement Learning)によるLCMコラボレーションの最適化について検討している。しかし、ほとんどのMARLの微調整アプローチは、しばしば集中的な実行を必要とする事前定義された実行プロトコルに依存している。エージェントがフレキシブルなデプロイメントと並行して推論を実行することができるため、分散LLMコラボレーションは現実的により魅力的である。また、現在のアプローチではモンテカルロ法を微調整に用いており、これは高い分散に悩まされ、効果的に訓練するためにより多くのサンプルを必要とする。そこで我々は, 分散LLMコラボレーションを最適化するマルチエージェント・アクター・クリティカル(MAAC)手法を開発した。本稿では,これらのMAAC手法が有用である時期と理由を分析する。 2つのMAACアプローチ, \textbf{C}entralized \textbf{C}ritic と \textbf{D}ecentralized \textbf{C}ritics を提案する。書込み, コーディング, ゲームプレイング領域にわたる実験により, モンテカルロ法とCoLLM-DCは, 短水平及び高密度逆向き設定において, CoLLM-CCに匹敵する性能が得られることを示した。しかし、両者とも長い水平あるいはスパース逆のタスクでCoLLM-CCを過小評価しており、モンテカルロ法ではサンプルが大幅に多く必要であり、CoLLM-DCは収束に苦慮している。私たちのコードはhttps://github.com/OpenMLRL/CoMLRL/releases/tag/v1.3.2で利用可能です。

関連論文リスト

LLM Collaboration With Multi-Agent Reinforcement Learning [11.369273830547316]
我々は,MARL(Multi-Agent Reinforcement Learning)問題を解決するために,マルチエージェント・マルチターンアルゴリズム,Multi-Agent Group Relative Policy Optimization (MAGRPO)を開発した。筆者らは,MAGRPOを用いた微調整MASにおいて,効率的な協調による高品質な応答を効率的に生成できることを実証した。
論文参考訳（メタデータ） (2025-08-06T17:18:25Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning [26.736078756799635]
新しいポストトレーニングパラダイムMAPoRL(強化学習を用いた協調LLMのためのマルチエージェントポストトレーニング)を導入する。 MAPoRLでは、複数のLLMが独立して独自の応答を生成し、最終回答を協調的に改善するためのマルチターンディスカッションを行う。 MAPoRL検証器は、回答の正しさを検証するスコアを割り当てることで、回答と議論の両方を評価する。スコアはコトレーニング報酬として機能し、マルチエージェントRLによって最大化される。
論文参考訳（メタデータ） (2025-02-25T18:33:48Z)
MA2CL:Masked Attentive Contrastive Learning for Multi-Agent Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。 MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文参考訳（メタデータ） (2023-06-03T05:32:19Z)
MARLlib: A Scalable and Efficient Multi-agent Reinforcement Learning Library [82.77446613763809]
本稿では,マルチエージェントタスクとアルゴリズムの組み合わせを高速に開発するためのライブラリであるMARLlibを紹介する。 MARLlibは、マルチエージェントタスクとアルゴリズムの学習過程を効果的に切り離すことができる。ライブラリのソースコードはGitHubで公開されている。
論文参考訳（メタデータ） (2022-10-11T03:11:12Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。