論文の概要: Low-Rank Agent-Specific Adaptation (LoRASA) for Multi-Agent Policy Learning
- arxiv url: http://arxiv.org/abs/2502.05573v1
- Date: Sat, 08 Feb 2025 13:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:34.364011
- Title: Low-Rank Agent-Specific Adaptation (LoRASA) for Multi-Agent Policy Learning
- Title(参考訳): マルチエージェント政策学習のためのローランドエージェント特化適応(LoRASA)
- Authors: Beining Zhang, Aditya Kapoor, Mingfei Sun,
- Abstract要約: マルチエージェント強化学習(MARL)は、効率的にスケールするために、エフェムパラメータ共有(PS)に依存することが多い。
我々は,各エージェントのポリシーを,共有バックボーンから微調整した特別タスクとして扱う新しいアプローチである textbfLow-Rank Agent-Specific Adaptation (LoRASA) を提案する。
我々は、StarCraft Multi-Agent Challenge (SMAC)やMulti-Agent MuJoCo (MAMuJoCo)といった挑戦的なベンチマークでLoRASAを評価する。
- 参考スコア(独自算出の注目度): 3.333453555166201
- License:
- Abstract: Multi-agent reinforcement learning (MARL) often relies on \emph{parameter sharing (PS)} to scale efficiently. However, purely shared policies can stifle each agent's unique specialization, reducing overall performance in heterogeneous environments. We propose \textbf{Low-Rank Agent-Specific Adaptation (LoRASA)}, a novel approach that treats each agent's policy as a specialized ``task'' fine-tuned from a shared backbone. Drawing inspiration from parameter-efficient transfer methods, LoRASA appends small, low-rank adaptation matrices to each layer of the shared policy, naturally inducing \emph{parameter-space sparsity} that promotes both specialization and scalability. We evaluate LoRASA on challenging benchmarks including the StarCraft Multi-Agent Challenge (SMAC) and Multi-Agent MuJoCo (MAMuJoCo), implementing it atop widely used algorithms such as MAPPO and A2PO. Across diverse tasks, LoRASA matches or outperforms existing baselines \emph{while reducing memory and computational overhead}. Ablation studies on adapter rank, placement, and timing validate the method's flexibility and efficiency. Our results suggest LoRASA's potential to establish a new norm for MARL policy parameterization: combining a shared foundation for coordination with low-rank agent-specific refinements for individual specialization.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、効率的にスケールするために \emph{parameter sharing (PS) に依存することが多い。
しかし、純粋に共有されたポリシーは、各エージェントのユニークな特殊化を弱め、異種環境における全体的なパフォーマンスを低下させる。
本稿では,各エージェントのポリシーを,共有バックボーンから微調整された「タスク」として扱う新しいアプローチである,‘textbf{Low-Rank Agent-Specific Adaptation(LoRASA)’を提案する。
パラメータ効率の伝達法から着想を得たLoRASAは、共有ポリシーの各層に小さな低ランク適応行列を付加し、特殊化と拡張性を促進する「emph{parameter-space sparsity}」を自然に誘導する。
我々は, MAPPO や A2PO などの広く使われているアルゴリズムの上位に実装した StarCraft Multi-Agent Challenge (SMAC) や Multi-Agent MuJoCo (MAMuJoCo) など, 挑戦的なベンチマーク上で LoRASA を評価する。
多様なタスクにわたって、LoRASAはメモリと計算オーバーヘッドを削減しながら、既存のベースライン \emph{ にマッチまたは性能を向上する。
アダプタのランク、配置、タイミングに関するアブレーション研究は、方法の柔軟性と効率性を検証する。
以上の結果から,ロラサがMARL政策パラメータ化の新たな規範を確立する可能性を示唆する。
関連論文リスト
- SDPO: Segment-Level Direct Preference Optimization for Social Agents [56.970902914217156]
大規模言語モデル(LLM)を利用した社会エージェントは、人間の社会的振る舞いをシミュレートできるが、複雑な目標指向の社会対話を扱うには不十分である。
トレーニングノイズを最小限に抑えつつ,マルチターンエージェントの動作を最適化するために,Segment-Level Direct Preference Optimization (SDPO)を提案する。
論文 参考訳(メタデータ) (2025-01-03T14:09:46Z) - Improving Global Parameter-sharing in Physically Heterogeneous Multi-agent Reinforcement Learning with Unified Action Space [22.535906675532196]
マルチエージェントシステムでは、アクションセマンティクスはエージェントのアクションが他のエンティティに対して異なる影響を示す。
従来のマルチエージェント強化学習(MARL)アルゴリズムは、多種多様な異種エージェントにまたがる大域的パラメータ共有を適用する。
要件を満たすために統一行動空間(UAS)を導入する。
論文 参考訳(メタデータ) (2024-08-14T09:15:11Z) - Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration [5.326588461041464]
マルチエージェント強化学習(MARL)は、自動運転車ネットワークのような分野を変革している。
異なるロールに対するMARL戦略は、スケールに応じて柔軟に更新することができる。
我々は、スケーラブルで不均一なポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。
SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-05T03:02:57Z) - Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Learning to Coordinate in Multi-Agent Systems: A Coordinated
Actor-Critic Algorithm and Finite-Time Guarantees [43.10380224532313]
本研究ではアクター・クリティカル(AC)アルゴリズムを用いて,自律エージェントによる協調行動の出現について検討する。
本稿では、個別にパラメータ化されたポリシーが共有された部分とパーソナライズされた部分を持つコーディネートされたアクタ・クリティカル・アルゴリズム(CAC)のクラスを提案し、分析する。
この研究は、部分的にパーソナライズされたポリシーを持つ分散ACアルゴリズムに対する最初の有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2021-10-11T20:26:16Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。