Fugu-MT 論文翻訳(概要): SS-MAIL: Self-Supervised Multi-Agent Imitation Learning

論文の概要: SS-MAIL: Self-Supervised Multi-Agent Imitation Learning

arxiv url: http://arxiv.org/abs/2110.08963v1
Date: Mon, 18 Oct 2021 01:17:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-20 06:49:47.569887
Title: SS-MAIL: Self-Supervised Multi-Agent Imitation Learning
Title（参考訳）: SS-MAIL:自己監督型マルチエージェント模倣学習
Authors: Akshay Dharmavaram, Tejus Gupta, Jiachen Li, Katia P. Sycara
Abstract要約: アルゴリズムの2つのファミリー - 行動クローン(BC)と敵対的模倣学習(AIL)- BCアプローチは、軌道生成問題のシーケンシャルな決定性を無視しているため、複雑なエラーに悩まされる。 AILメソッドは、トレーニングダイナミクスの不安定さに悩まされている。我々は、よりリッチな報酬関数を近似するように差別者を奨励する、新たな自己監督的損失を導入する。
参考スコア（独自算出の注目度）: 18.283839252425803
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The current landscape of multi-agent expert imitation is broadly dominated by two families of algorithms - Behavioral Cloning (BC) and Adversarial Imitation Learning (AIL). BC approaches suffer from compounding errors, as they ignore the sequential decision-making nature of the trajectory generation problem. Furthermore, they cannot effectively model multi-modal behaviors. While AIL methods solve the issue of compounding errors and multi-modal policy training, they are plagued with instability in their training dynamics. In this work, we address this issue by introducing a novel self-supervised loss that encourages the discriminator to approximate a richer reward function. We employ our method to train a graph-based multi-agent actor-critic architecture that learns a centralized policy, conditioned on a learned latent interaction graph. We show that our method (SS-MAIL) outperforms prior state-of-the-art methods on real-world prediction tasks, as well as on custom-designed synthetic experiments. We prove that SS-MAIL is part of the family of AIL methods by providing a theoretical connection to cost-regularized apprenticeship learning. Moreover, we leverage the self-supervised formulation to introduce a novel teacher forcing-based curriculum (Trajectory Forcing) that improves sample efficiency by progressively increasing the length of the generated trajectory. The SS-MAIL framework improves multi-agent imitation capabilities by stabilizing the policy training, improving the reward shaping capabilities, as well as providing the ability for modeling multi-modal trajectories.
Abstract（参考訳）: マルチエージェント・エキスパート模倣の現在の展望は、行動クローニング(bc)と敵対的模倣学習(ail)の2つのアルゴリズムによって広く支配されている。 bcアプローチは、軌道生成問題の逐次的決定性を無視しているため、エラーの複合化に苦しむ。さらに、マルチモーダルな振る舞いを効果的にモデル化することはできない。 AIL法は複合的なエラーやマルチモーダルなポリシートレーニングの問題を解決するが、トレーニングダイナミクスの不安定さに悩まされている。本研究では,よりリッチな報酬関数を識別する新たな自己監督的損失を導入することで,この問題に対処する。我々は,学習された潜伏相互作用グラフに基づいて,集中型ポリシーを学習するグラフベースのマルチエージェントアクタ批判アーキテクチャを訓練する。提案手法は,実世界の予測タスクやカスタムデザインによる合成実験において,事前の最先端手法よりも優れていることを示す。 SS-MAILはコスト調整型見習い学習に理論的に関係があることを実証する。さらに, 自己指導式を活用し, 生成する軌道長を段階的に増やし, サンプル効率を向上させる新しい教員強制型カリキュラム(軌道強制)を導入する。 ss-mailフレームワークは、ポリシトレーニングの安定化、報酬シェーピング機能の改善、マルチモーダルトラジェクタのモデリング機能を提供することで、マルチエージェント模倣能力を向上させる。

関連論文リスト

From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳（メタデータ） (2024-04-04T06:24:11Z)
HiMAP: Learning Heuristics-Informed Policies for Large-Scale Multi-Agent Pathfinding [16.36594480478895]
Heuristics-Informed Multi-Agent Pathfinding (HiMAP) Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
論文参考訳（メタデータ） (2024-02-23T13:01:13Z)
Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour with Multi-Agent Reinforcement Learning [4.40301653518681]
エージェントベースモデル(ABM)は、従来の平衡解析と相容れない様々な実世界の現象をモデル化することを約束している。マルチエージェント強化学習(MARL)の最近の進歩は、合理性の観点からこの問題に対処する方法を提供する。 MARLフレームワーク内で不均一な処理制約を持つエージェントを表現するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-02-01T17:21:45Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。分散ポリシと集中型コントローラの両方として機能する。実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Self-Supervised Reinforcement Learning that Transfers using Random Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文参考訳（メタデータ） (2023-05-26T20:37:06Z)
Relative Distributed Formation and Obstacle Avoidance with Multi-agent Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文参考訳（メタデータ） (2021-11-14T13:02:45Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
Learning Diverse Representations for Fast Adaptation to Distribution Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文参考訳（メタデータ） (2020-06-12T12:23:50Z)
Task-Feature Collaborative Learning with Application to Personalized Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文参考訳（メタデータ） (2020-04-29T02:32:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。