Fugu-MT 論文翻訳(概要): Scaling Multi-Agent Reinforcement Learning with Selective Parameter Sharing

論文の概要: Scaling Multi-Agent Reinforcement Learning with Selective Parameter Sharing

arxiv url: http://arxiv.org/abs/2102.07475v1
Date: Mon, 15 Feb 2021 11:33:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-16 15:19:30.924177
Title: Scaling Multi-Agent Reinforcement Learning with Selective Parameter Sharing
Title（参考訳）: 選択パラメータ共有によるマルチエージェント強化学習のスケーリング
Authors: Filippos Christianos, Georgios Papoudakis, Arrasy Rahman, Stefano V. Albrecht
Abstract要約: 深層強化学習におけるパラメータの共有は、アルゴリズムを多数のエージェントに拡張する上で重要な役割を担っている。しかし、全てのエージェントが同じパラメータを共有することは、学習に有害な影響を及ぼす可能性がある。それらの能力と目標に基づいて,パラメータを分割することで,パラメータ共有の恩恵を受けるエージェントを自動的に特定する手法を提案する。
参考スコア（独自算出の注目度）: 4.855663359344748
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sharing parameters in multi-agent deep reinforcement learning has played an essential role in allowing algorithms to scale to a large number of agents. Parameter sharing between agents significantly decreases the number of trainable parameters, shortening training times to tractable levels, and has been linked to more efficient learning. However, having all agents share the same parameters can also have a detrimental effect on learning. We demonstrate the impact of parameter sharing methods on training speed and converged returns, establishing that when applied indiscriminately, their effectiveness is highly dependent on the environment. Therefore, we propose a novel method to automatically identify agents which may benefit from sharing parameters by partitioning them based on their abilities and goals. Our approach combines the increased sample efficiency of parameter sharing with the representational capacity of multiple independent networks to reduce training time and increase final returns.
Abstract（参考訳）: 多エージェント深部強化学習におけるパラメータの共有は,アルゴリズムを多数のエージェントに拡張する上で重要な役割を担っている。エージェント間のパラメータ共有は、トレーニング可能なパラメータの数を大幅に減少させ、トレーニング時間をトラクタブルレベルに短縮し、より効率的な学習に結びついている。しかし、全てのエージェントが同じパラメータを共有することは、学習に有害な影響を及ぼす可能性がある。パラメータ共有手法が学習速度と収束リターンに与える影響を実証し,無差別に適用した場合,その効果は環境に大きく依存することを示した。そこで本研究では,その能力と目標に基づいてパラメータを分割することで,パラメータ共有の恩恵を受けるエージェントを自動的に特定する手法を提案する。提案手法は,パラメータ共有のサンプル効率の向上と,複数の独立ネットワークの表現能力の併用により,トレーニング時間を短縮し,最終的なリターンを増大させる。

関連論文リスト

Late Fusion Multi-task Learning for Semiparametric Inference with Nuisance Parameters [2.6217304977339473]
半パラメトリックモデルを用いたマルチタスク学習のための遅延融合フレームワークを提案する。複数のデータソースにまたがる不均一な処理効果推定などの応用に着目する。ニュアンスパラメータ推定のための新しいマルチタスク学習法を提案する。
論文参考訳（メタデータ） (2025-07-10T17:27:04Z)
Dynamic Mixture of Progressive Parameter-Efficient Expert Library for Lifelong Robot Learning [69.81148368677593]
ジェネラリストのエージェントは生涯を通じて継続的に学び、適応し、破滅的な忘れを最小化しながら効率的な転送を実現する必要がある。従来の研究は、シングルタスク適応のためのパラメータ効率の良い微調整を探索し、少数のパラメータで凍結事前訓練されたモデルを効果的に操る。本稿では,生涯にわたるロボット学習のためのDMPEL(Dynamic Mixture of Progressive Efficient Expert Library)を提案する。我々のフレームワークは、トレーニング可能な最小限のパラメータと記憶を生かしながら、継続的な適応を通して成功率において、最先端の生涯学習方法よりも優れています。
論文参考訳（メタデータ） (2025-06-06T11:13:04Z)
ASLoRA: Adaptive Sharing Low-Rank Adaptation Across Layers [37.77593687901923]
ASLoRAはグローバル共有と部分適応共有を組み合わせた多層パラメータ共有戦略である。我々は様々なNLPタスクの実験を行い、パラメータの25%未満を使用しながら、ASLoRAがLoRAより優れていることを示した。
論文参考訳（メタデータ） (2024-12-13T13:32:13Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Kaleidoscope: Learnable Masks for Heterogeneous Multi-agent Reinforcement Learning [14.01772209044574]
本稿では,新しい適応型部分パラメータ共有方式であるEmphKaleidoscopeを紹介する。パラメータ共有の効率を犠牲にすることなく、これらのマスク間の相違を促進することで、ポリシーネットワーク間の多様性を促進する。我々はKaleidoscopeを拡張してアクター批判アルゴリズムの文脈におけるアンサンブルを批判する。
論文参考訳（メタデータ） (2024-10-11T05:22:54Z)
MoS: Unleashing Parameter Efficiency of Low-Rank Adaptation with Mixture of Shards [35.163843138935455]
大規模言語モデルの迅速なスケーリングには、爆発的なGPUメモリオーバーヘッドを低減するために、より軽量な微調整方法が必要である。本研究は、純粋な共有による有害な影響を逆転させる上で、差別化が不可欠であることを示す。本研究では,層間共有と層間共有を併用し,ほぼ費用がかからない4つの差別戦略を統合することで,Shardsの混合(MoS)を提案する。
論文参考訳（メタデータ） (2024-10-01T07:47:03Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
PPS-QMIX: Periodically Parameter Sharing for Accelerating Convergence of Multi-Agent Reinforcement Learning [20.746383793882984]
マルチエージェント強化学習(MARL)の訓練は時間を要するプロセスである。 1つの欠点は、MARLの各エージェントの戦略が独立しているが、実際に協力していることである。本稿では,A-PPS(Average Sharing),Reward-Scalability Periodically,Partial Personalized Periodicallyという3つの簡単なアプローチを提案する。
論文参考訳（メタデータ） (2024-03-05T03:59:01Z)
MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文参考訳（メタデータ） (2024-02-27T07:14:12Z)
Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文参考訳（メタデータ） (2024-01-23T14:53:20Z)
Adaptive parameter sharing for multi-agent reinforcement learning [16.861543418593044]
生物学における脳に関する研究から着想を得た新しいパラメータ共有手法を提案する。エージェントのタイプを、そのアイデンティティに基づいて、共有ネットワーク内の異なるリージョンにマッピングする。本手法は,訓練パラメータを付加することなく,異なるエージェント間の戦略の多様性を向上させることができる。
論文参考訳（メタデータ） (2023-12-14T15:00:32Z)
Parameter Sharing with Network Pruning for Scalable Multi-Agent Deep Reinforcement Learning [20.35644044703191]
本稿では,ニューラルネットワークに構造化プルーニングを適用して,新たなパラメータを導入することなく,共同政策の表現能力を高める方法を提案する。提案手法をいくつかのベンチマークタスクで評価し,提案手法が他のパラメータ共有手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-03-02T02:17:14Z)
Efficient Feature Transformations for Discriminative and Generative Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文参考訳（メタデータ） (2021-03-25T01:48:14Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。