論文の概要: ESP: Exploiting Symmetry Prior for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.16186v1
- Date: Sun, 30 Jul 2023 09:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 17:06:51.402961
- Title: ESP: Exploiting Symmetry Prior for Multi-Agent Reinforcement Learning
- Title(参考訳): ESP:マルチエージェント強化学習に先立つ爆発的対称性
- Authors: Xin Yu, Rongye Shi, Pu Feng, Yongkai Tian, Jie Luo, Wenjun Wu
- Abstract要約: マルチエージェント強化学習(MARL)は近年,有望な成果を上げている。
本稿では、データ拡張とよく設計された一貫性損失を統合することで、事前知識を活用するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.733348449818838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) has achieved promising results in
recent years. However, most existing reinforcement learning methods require a
large amount of data for model training. In addition, data-efficient
reinforcement learning requires the construction of strong inductive biases,
which are ignored in the current MARL approaches. Inspired by the symmetry
phenomenon in multi-agent systems, this paper proposes a framework for
exploiting prior knowledge by integrating data augmentation and a well-designed
consistency loss into the existing MARL methods. In addition, the proposed
framework is model-agnostic and can be applied to most of the current MARL
algorithms. Experimental tests on multiple challenging tasks demonstrate the
effectiveness of the proposed framework. Moreover, the proposed framework is
applied to a physical multi-robot testbed to show its superiority.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は近年,有望な成果を上げている。
しかし、既存の強化学習手法の多くは、モデルトレーニングに大量のデータを必要とする。
加えて、データ効率の強化学習は、現在のMARLアプローチでは無視される強い帰納バイアスを構築する必要がある。
本稿では,マルチエージェントシステムの対称性現象に触発されて,既存のmarl法にデータ拡張とよく設計された一貫性損失を統合することにより,事前知識を活用できる枠組みを提案する。
さらに、提案フレームワークはモデルに依存しず、現在のMARLアルゴリズムのほとんどに適用できる。
複数の課題に対する実験により,提案手法の有効性が示された。
さらに,本フレームワークを物理マルチロボットテストベッドに適用し,その優位性を示す。
関連論文リスト
- O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である
協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。
我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文 参考訳(メタデータ) (2025-01-31T08:08:20Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Representation Learning For Efficient Deep Multi-Agent Reinforcement Learning [10.186029242664931]
我々は,MARL訓練を補完するために考案された総合表現学習の形式を適用したMAPO-LSOを提案する。
特に、MAPO-LSOは遷移力学再構成と自己予測学習のマルチエージェント拡張を提案する。
実験の結果,MAPO-LSOはバニラMARLと比較して,サンプル効率と学習性能の顕著な向上を示した。
論文 参考訳(メタデータ) (2024-06-05T03:11:44Z) - Demonstration Guided Multi-Objective Reinforcement Learning [2.9845592719739127]
実証誘導多目的強化学習(DG-MORL)を導入する。
この新しいアプローチでは、事前のデモンストレーションを利用し、コーナーウェイトサポートを通じてユーザの好みに合わせて調整し、自己進化メカニズムを取り入れて、準最適デモを洗練させる。
我々の実証研究は、DG-MORLが既存のMORLアルゴリズムよりも優れていることを示し、その堅牢性と有効性を確立した。
論文 参考訳(メタデータ) (2024-04-05T10:19:04Z) - Robust Analysis of Multi-Task Learning Efficiency: New Benchmarks on Light-Weighed Backbones and Effective Measurement of Multi-Task Learning Challenges by Feature Disentanglement [69.51496713076253]
本稿では,既存のMTL手法の効率性に焦点をあてる。
バックボーンを小さくしたメソッドの大規模な実験と,MetaGraspNetデータセットを新しいテストグラウンドとして実施する。
また,MTLにおける課題の新規かつ効率的な識別子として,特徴分散尺度を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:15:55Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Model-based Multi-agent Reinforcement Learning: Recent Progress and
Prospects [23.347535672670688]
マルチエージェント強化学習(MARL)は、複数の参加者が関与するシーケンシャルな意思決定問題に取り組む。
MARLは効果的なトレーニングのために膨大な数のサンプルを必要とする。
モデルに基づく手法は、サンプル効率の証明可能な利点を実現することが示されている。
論文 参考訳(メタデータ) (2022-03-20T17:24:47Z) - MM-KTD: Multiple Model Kalman Temporal Differences for Reinforcement
Learning [36.14516028564416]
本稿では、最適制御ポリシーを学習するための革新的マルチモデルカルマン時間差分(MM-KTD)フレームワークを提案する。
システムのサンプリング効率を高めるために,能動的学習法を提案する。
実験の結果, MM-KTDフレームワークは最先端のフレームワークに比べて優れていた。
論文 参考訳(メタデータ) (2020-05-30T06:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。