論文の概要: Human-Inspired Multi-Agent Navigation using Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2103.10000v5
- Date: Tue, 29 Aug 2023 00:09:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 19:39:12.169889
- Title: Human-Inspired Multi-Agent Navigation using Knowledge Distillation
- Title(参考訳): 知識蒸留を用いたヒューマンインスパイアされたマルチエージェントナビゲーション
- Authors: Pei Xu and Ioannis Karamouzas
- Abstract要約: 本稿では,エージェントエージェントインタラクションのためのヒューマンライクな一般的な衝突回避ポリシーを学習するためのフレームワークを提案する。
提案手法では, 知識蒸留と強化学習を用いて報酬関数を形作る。
提案手法により訓練されたエージェントは,衝突回避や目標指向の操舵作業において,人間のような軌道を取ることができることを示す。
- 参考スコア(独自算出の注目度): 4.659427498118277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advancements in the field of multi-agent navigation,
agents still lack the sophistication and intelligence that humans exhibit in
multi-agent settings. In this paper, we propose a framework for learning a
human-like general collision avoidance policy for agent-agent interactions in
fully decentralized, multi-agent environments. Our approach uses knowledge
distillation with reinforcement learning to shape the reward function based on
expert policies extracted from human trajectory demonstrations through behavior
cloning. We show that agents trained with our approach can take human-like
trajectories in collision avoidance and goal-directed steering tasks not
provided by the demonstrations, outperforming the experts as well as
learning-based agents trained without knowledge distillation.
- Abstract(参考訳): マルチエージェントナビゲーションの分野では大きな進歩があったが、エージェントは人間がマルチエージェント設定で示す高度な知識を欠いている。
本稿では,完全分散マルチエージェント環境におけるエージェント・エージェント間インタラクションのためのヒューマンライクな一般衝突回避ポリシーを学習するための枠組みを提案する。
提案手法では, 行動クローニングによる人間軌道実証から抽出した知識蒸留と強化学習を用いて報酬関数を形成する。
提案手法により訓練されたエージェントは,実験で提供されていない衝突回避や目標指向の操舵作業において,人間のような軌道を取ることができることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Beyond Rewards: a Hierarchical Perspective on Offline Multiagent
Behavioral Analysis [14.656957226255628]
本稿では,マルチエージェント領域における行動クラスタの発見のためのモデルに依存しない手法を提案する。
我々のフレームワークはエージェントの基盤となる学習アルゴリズムを前提とせず、潜伏状態やモデルへのアクセスを必要とせず、完全にオフラインで観察データを使って訓練することができる。
論文 参考訳(メタデータ) (2022-06-17T23:07:33Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Skill Discovery of Coordination in Multi-agent Reinforcement Learning [41.67943127631515]
本稿では,複数のエージェントの協調パターンを識別する手法であるMASD(Multi-agent Skill Discovery)を提案する。
一般粒子マルチエージェント環境における協調のレベルにおける様々なスキルの出現を示す。
また,この「ボトルネック」は,一つのエージェントにスキルが崩壊するのを防ぎ,学習スキルの多様性を高めることも明らかにした。
論文 参考訳(メタデータ) (2020-06-07T02:04:15Z) - Towards Learning Multi-agent Negotiations via Self-Play [2.28438857884398]
自己再生の反復的な手順が、徐々に多様な環境を創り出す方法を示す。
これは高度で堅牢なマルチエージェントポリシーの学習につながります。
合併操作の成功率は63%から98%に劇的に改善した。
論文 参考訳(メタデータ) (2020-01-28T08:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。