論文の概要: Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic
- arxiv url: http://arxiv.org/abs/2601.21972v2
- Date: Wed, 04 Feb 2026 02:30:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.605222
- Title: Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic
- Title(参考訳): 多エージェントアクター批判を用いた分散LLM協調学習
- Authors: Shuo Liu, Tianle Chen, Ryan Amiri, Christopher Amato,
- Abstract要約: 分散LLMコラボレーションは、実際により魅力的です。
これらの問題に対処するため、MARLではアクタークリティカルな手法が一般的である。
我々は2つのMAACアプローチ,textbfCoLLM-CC with a textbfCritics, textbfCoLLM-DC with textbfDecentralized textbfCriticsを提案する。
- 参考スコア(独自算出の注目度): 11.375009887852185
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent work has explored optimizing LLM collaboration through Multi-Agent Reinforcement Learning (MARL). However, most MARL fine-tuning approaches rely on predefined execution protocols, which often require centralized execution. Decentralized LLM collaboration is more appealing in practice, as agents can run inference in parallel with flexible deployments. Also, current approaches use Monte Carlo methods for fine-tuning, which suffer from high variance and thus require more samples to train effectively. Actor-critic methods are prevalent in MARL for dealing with these issues, so we developed Multi-Agent Actor-Critic (MAAC) methods to optimize decentralized LLM collaboration. In this paper, we analyze when and why these MAAC methods are beneficial. We propose 2 MAAC approaches, \textbf{CoLLM-CC} with a \textbf{C}entralized \textbf{C}ritic and \textbf{CoLLM-DC} with \textbf{D}ecentralized \textbf{C}ritics. Our experiments across writing, coding, and game-playing domains show that Monte Carlo methods and CoLLM-DC can achieve performance comparable to CoLLM-CC in short-horizon and dense-reward settings. However, they both underperform CoLLM-CC on long-horizon or sparse-reward tasks, where Monte Carlo methods require substantially more samples and CoLLM-DC struggles to converge. Our code is available at https://github.com/OpenMLRL/CoMLRL/releases/tag/v1.3.2.
- Abstract(参考訳): 近年,MARL(Multi-Agent Reinforcement Learning)によるLCMコラボレーションの最適化について検討している。
しかし、ほとんどのMARLの微調整アプローチは、しばしば集中的な実行を必要とする事前定義された実行プロトコルに依存している。
エージェントがフレキシブルなデプロイメントと並行して推論を実行することができるため、分散LLMコラボレーションは現実的により魅力的である。
また、現在のアプローチではモンテカルロ法を微調整に用いており、これは高い分散に悩まされ、効果的に訓練するためにより多くのサンプルを必要とする。
そこで我々は, 分散LLMコラボレーションを最適化するマルチエージェント・アクター・クリティカル(MAAC)手法を開発した。
本稿では,これらのMAAC手法が有用である時期と理由を分析する。
2つのMAACアプローチ, \textbf{C}entralized \textbf{C}ritic と \textbf{D}ecentralized \textbf{C}ritics を提案する。
書込み, コーディング, ゲームプレイング領域にわたる実験により, モンテカルロ法とCoLLM-DCは, 短水平及び高密度逆向き設定において, CoLLM-CCに匹敵する性能が得られることを示した。
しかし、両者とも長い水平あるいはスパース逆のタスクでCoLLM-CCを過小評価しており、モンテカルロ法ではサンプルが大幅に多く必要であり、CoLLM-DCは収束に苦慮している。
私たちのコードはhttps://github.com/OpenMLRL/CoMLRL/releases/tag/v1.3.2で利用可能です。
関連論文リスト
- LLM Collaboration With Multi-Agent Reinforcement Learning [11.369273830547316]
我々は,MARL(Multi-Agent Reinforcement Learning)問題を解決するために,マルチエージェント・マルチターンアルゴリズム,Multi-Agent Group Relative Policy Optimization (MAGRPO)を開発した。
筆者らは,MAGRPOを用いた微調整MASにおいて,効率的な協調による高品質な応答を効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2025-08-06T17:18:25Z) - CTTS: Collective Test-Time Scaling [58.564620942591866]
テスト時スケーリング(TTS)は,大規模言語モデル(LLM)のパフォーマンス向上のための,有望かつトレーニング不要なアプローチとして登場した。
単体テストタイムスケーリング(STTS)パラダイムを克服するために、CTTS(Collective Test-Time Scaling)を導入します。
CTTS-MMは、マルチエージェントとマルチリワードのコラボレーションを運用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-05T11:19:08Z) - LAMARL: LLM-Aided Multi-Agent Reinforcement Learning for Cooperative Policy Generation [12.098817831819078]
大規模言語モデル (LLM) は単一ロボット設定で将来性を示すが、マルチロボットシステムにおけるそれらの応用はいまだほとんど探索されていない。
本稿では, LLMとMARLを統合し, 手動設計を必要とせずに試料効率を大幅に向上する新しいLAMARL手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T10:59:54Z) - Distilling LLM Agent into Small Models with Retrieval and Code Tools [65.73762766854192]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。
その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-23T08:20:15Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning [26.736078756799635]
新しいポストトレーニングパラダイムMAPoRL(強化学習を用いた協調LLMのためのマルチエージェントポストトレーニング)を導入する。
MAPoRLでは、複数のLLMが独立して独自の応答を生成し、最終回答を協調的に改善するためのマルチターンディスカッションを行う。
MAPoRL検証器は、回答の正しさを検証するスコアを割り当てることで、回答と議論の両方を評価する。
スコアはコトレーニング報酬として機能し、マルチエージェントRLによって最大化される。
論文 参考訳(メタデータ) (2025-02-25T18:33:48Z) - CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts [41.80218225636109]
CuMoは、より小さなモデルと同様の推論コストを維持しながら、トレーニング中のモデルのスケーラビリティを改善します。
CuMoは視覚エンコーダとコネクタの両方にスパースゲートのMixture-of-Expertsブロックを組み込んでいる。
CuMoのコードとモデルの重み付けはhttps://github.com/SHI-Labs/CuMoでオープンソース化されている。
論文 参考訳(メタデータ) (2024-05-09T17:37:20Z) - Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning [15.46907000938726]
協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索に関する最初の研究について述べる。
並列マルコフ決定過程(MDP)におけるランダム化探索のための統一されたアルゴリズムフレームワークと,2つのトンプソンサンプリング型アルゴリズムであるCoopTS-PHEとCoopTS-LMCを提案する。
提案手法は, 深層探査問題(例えば$N$-chain), ビデオゲーム, エネルギーシステムにおける実世界の問題など, 複数並列RL環境における提案手法の評価を行う。
論文 参考訳(メタデータ) (2024-04-16T17:01:38Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - MARLlib: A Scalable and Efficient Multi-agent Reinforcement Learning
Library [82.77446613763809]
本稿では,マルチエージェントタスクとアルゴリズムの組み合わせを高速に開発するためのライブラリであるMARLlibを紹介する。
MARLlibは、マルチエージェントタスクとアルゴリズムの学習過程を効果的に切り離すことができる。
ライブラリのソースコードはGitHubで公開されている。
論文 参考訳(メタデータ) (2022-10-11T03:11:12Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。