Fugu-MT 論文翻訳(概要): Enabling Multi-Agent Transfer Reinforcement Learning via Scenario Independent Representation

論文の概要: Enabling Multi-Agent Transfer Reinforcement Learning via Scenario Independent Representation

arxiv url: http://arxiv.org/abs/2402.08184v1
Date: Tue, 13 Feb 2024 02:48:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 16:41:27.045318
Title: Enabling Multi-Agent Transfer Reinforcement Learning via Scenario Independent Representation
Title（参考訳）: シナリオ独立表現によるマルチエージェント転送強化学習の実現
Authors: Ayesha Siddika Nipu, Siming Liu, Anthony Harris
Abstract要約: マルチエージェント強化学習(MARL)アルゴリズムは、エージェント間の協調や競合を必要とする複雑なタスクに広く採用されている。本稿では,様々な状態空間を固定サイズの入力に統一することで,MARLの伝達学習を可能にする新しいフレームワークを提案する。スクラッチから学習するエージェントと比較して,他のシナリオから学んだ操作スキルを用いたマルチエージェント学習性能の大幅な向上を示す。
参考スコア（独自算出の注目度）: 0.7366405857677227
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Multi-Agent Reinforcement Learning (MARL) algorithms are widely adopted in tackling complex tasks that require collaboration and competition among agents in dynamic Multi-Agent Systems (MAS). However, learning such tasks from scratch is arduous and may not always be feasible, particularly for MASs with a large number of interactive agents due to the extensive sample complexity. Therefore, reusing knowledge gained from past experiences or other agents could efficiently accelerate the learning process and upscale MARL algorithms. In this study, we introduce a novel framework that enables transfer learning for MARL through unifying various state spaces into fixed-size inputs that allow one unified deep-learning policy viable in different scenarios within a MAS. We evaluated our approach in a range of scenarios within the StarCraft Multi-Agent Challenge (SMAC) environment, and the findings show significant enhancements in multi-agent learning performance using maneuvering skills learned from other scenarios compared to agents learning from scratch. Furthermore, we adopted Curriculum Transfer Learning (CTL), enabling our deep learning policy to progressively acquire knowledge and skills across pre-designed homogeneous learning scenarios organized by difficulty levels. This process promotes inter- and intra-agent knowledge transfer, leading to high multi-agent learning performance in more complicated heterogeneous scenarios.
Abstract（参考訳）: マルチエージェント強化学習(MARL)アルゴリズムは、動的マルチエージェントシステム(MAS)におけるエージェント間の協調や競合を必要とする複雑なタスクに広く採用されている。しかし、このようなタスクをスクラッチから学習することは困難であり、特に多数の対話型エージェントを持つMASにとって、必ずしも実現不可能であるとは限らない。したがって、過去の経験やその他のエージェントから得た知識を再利用することで、学習プロセスとMARLアルゴリズムを効率的に高速化することができる。本研究では,多種多様な状態空間を固定サイズの入力に統一することで,MAS内の異なるシナリオで一貫した深層学習ポリシーを実現できる新しいフレームワークを提案する。我々は、starcraft multi-agent challenge (smac)環境における様々なシナリオにおいて、このアプローチを評価し、スクラッチから学習するエージェントと比較して、他のシナリオから学習した操作スキルを用いて、マルチエージェント学習性能が大幅に向上することを示した。さらに,我々はカリキュラム・トランスファー・ラーニング(ctl)を採用し,難易度レベルに整理された事前設計された均質な学習シナリオを通じて,学習方針の知識とスキルの段階的獲得を可能にした。このプロセスはエージェント間の知識伝達を促進し、より複雑なヘテロジニアスシナリオにおけるマルチエージェント学習のパフォーマンスを高める。

関連論文リスト

Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
強化学習を用いたマルチエージェントシステムでは, サンプル効率, 解釈可能性, 伝達性に課題が生じる。本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-02-14T13:23:18Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Variational Offline Multi-agent Skill Discovery [43.869625428099425]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再トレーニングすることなく,関連するタスク間で伝達可能である。
論文参考訳（メタデータ） (2024-05-26T00:24:46Z)
Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文参考訳（メタデータ） (2023-12-28T13:50:42Z)
Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文参考訳（メタデータ） (2023-10-10T17:11:20Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
CH-MARL: A Multimodal Benchmark for Cooperative, Heterogeneous Multi-Agent Reinforcement Learning [15.686200550604815]
マルチルームホーム環境において,複数の模擬異種ロボット間の協調作業を含むタスクを含むベンチマークデータセットを提案する。我々は、統合学習フレームワーク、最先端マルチエージェント強化学習技術のマルチモーダル実装、一貫した評価プロトコルを提供する。
論文参考訳（メタデータ） (2022-08-26T02:21:31Z)
LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。 LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文参考訳（メタデータ） (2022-05-05T10:46:16Z)
KnowSR: Knowledge Sharing among Homogeneous Agents in Multi-agent Reinforcement Learning [16.167201058368303]
本稿では,KnowSRと呼ばれるマルチエージェント強化学習(MARL)アルゴリズムの適応手法を提案する。我々は、知識蒸留(KD)の概念を用いて、訓練フェーズを短縮するためにエージェント間で知識を共有する。 KnowSRの堅牢性と有効性を実証的に示すために,我々は,協調的・競合的なシナリオにおける最先端のMARLアルゴリズムの広範な実験を行った。
論文参考訳（メタデータ） (2021-05-25T02:19:41Z)
KnowRU: Knowledge Reusing via Knowledge Distillation in Multi-agent Reinforcement Learning [16.167201058368303]
深層強化学習(RL)アルゴリズムはマルチエージェント領域において劇的に進歩している。この問題を解決するには、歴史的経験の効率的な活用が不可欠です。知識再利用のための「KnowRU」という手法を提案する。
論文参考訳（メタデータ） (2021-03-27T12:38:01Z)
UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文参考訳（メタデータ） (2021-01-20T07:24:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。