論文の概要: SS-MAIL: Self-Supervised Multi-Agent Imitation Learning
- arxiv url: http://arxiv.org/abs/2110.08963v1
- Date: Mon, 18 Oct 2021 01:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 06:49:47.569887
- Title: SS-MAIL: Self-Supervised Multi-Agent Imitation Learning
- Title(参考訳): SS-MAIL:自己監督型マルチエージェント模倣学習
- Authors: Akshay Dharmavaram, Tejus Gupta, Jiachen Li, Katia P. Sycara
- Abstract要約: アルゴリズムの2つのファミリー - 行動クローン(BC)と敵対的模倣学習(AIL)-
BCアプローチは、軌道生成問題のシーケンシャルな決定性を無視しているため、複雑なエラーに悩まされる。
AILメソッドは、トレーニングダイナミクスの不安定さに悩まされている。
我々は、よりリッチな報酬関数を近似するように差別者を奨励する、新たな自己監督的損失を導入する。
- 参考スコア(独自算出の注目度): 18.283839252425803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current landscape of multi-agent expert imitation is broadly dominated by
two families of algorithms - Behavioral Cloning (BC) and Adversarial Imitation
Learning (AIL). BC approaches suffer from compounding errors, as they ignore
the sequential decision-making nature of the trajectory generation problem.
Furthermore, they cannot effectively model multi-modal behaviors. While AIL
methods solve the issue of compounding errors and multi-modal policy training,
they are plagued with instability in their training dynamics. In this work, we
address this issue by introducing a novel self-supervised loss that encourages
the discriminator to approximate a richer reward function. We employ our method
to train a graph-based multi-agent actor-critic architecture that learns a
centralized policy, conditioned on a learned latent interaction graph. We show
that our method (SS-MAIL) outperforms prior state-of-the-art methods on
real-world prediction tasks, as well as on custom-designed synthetic
experiments. We prove that SS-MAIL is part of the family of AIL methods by
providing a theoretical connection to cost-regularized apprenticeship learning.
Moreover, we leverage the self-supervised formulation to introduce a novel
teacher forcing-based curriculum (Trajectory Forcing) that improves sample
efficiency by progressively increasing the length of the generated trajectory.
The SS-MAIL framework improves multi-agent imitation capabilities by
stabilizing the policy training, improving the reward shaping capabilities, as
well as providing the ability for modeling multi-modal trajectories.
- Abstract(参考訳): マルチエージェント・エキスパート模倣の現在の展望は、行動クローニング(bc)と敵対的模倣学習(ail)の2つのアルゴリズムによって広く支配されている。
bcアプローチは、軌道生成問題の逐次的決定性を無視しているため、エラーの複合化に苦しむ。
さらに、マルチモーダルな振る舞いを効果的にモデル化することはできない。
AIL法は複合的なエラーやマルチモーダルなポリシートレーニングの問題を解決するが、トレーニングダイナミクスの不安定さに悩まされている。
本研究では,よりリッチな報酬関数を識別する新たな自己監督的損失を導入することで,この問題に対処する。
我々は,学習された潜伏相互作用グラフに基づいて,集中型ポリシーを学習するグラフベースのマルチエージェントアクタ批判アーキテクチャを訓練する。
提案手法は,実世界の予測タスクやカスタムデザインによる合成実験において,事前の最先端手法よりも優れていることを示す。
SS-MAILはコスト調整型見習い学習に理論的に関係があることを実証する。
さらに, 自己指導式を活用し, 生成する軌道長を段階的に増やし, サンプル効率を向上させる新しい教員強制型カリキュラム(軌道強制)を導入する。
ss-mailフレームワークは、ポリシトレーニングの安定化、報酬シェーピング機能の改善、マルチモーダルトラジェクタのモデリング機能を提供することで、マルチエージェント模倣能力を向上させる。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - HiMAP: Learning Heuristics-Informed Policies for Large-Scale Multi-Agent
Pathfinding [16.36594480478895]
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
論文 参考訳(メタデータ) (2024-02-23T13:01:13Z) - Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour
with Multi-Agent Reinforcement Learning [4.40301653518681]
エージェントベースモデル(ABM)は、従来の平衡解析と相容れない様々な実世界の現象をモデル化することを約束している。
マルチエージェント強化学習(MARL)の最近の進歩は、合理性の観点からこの問題に対処する方法を提供する。
MARLフレームワーク内で不均一な処理制約を持つエージェントを表現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-01T17:21:45Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Towards Skilled Population Curriculum for Multi-Agent Reinforcement
Learning [42.540853953923495]
我々は,カリキュラム学習をマルチエージェント協調に適応させる新しいカリキュラム学習フレームワーク,SPC(Skilled Population Curriculum)を導入する。
具体的には,集団不変のコミュニケーションと階層的スキルセットを学生に提供し,異なるタスクからさまざまなエージェントで協調と行動スキルを学習できるようにする。
また、このマルチエージェント自動カリキュラム教育問題の本質的非定常性を解析し、それに対応する後悔境界を提供する。
論文 参考訳(メタデータ) (2023-02-07T12:30:52Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。