論文の概要: Hierarchical Imitation Learning for Stochastic Environments
- arxiv url: http://arxiv.org/abs/2309.14003v1
- Date: Mon, 25 Sep 2023 10:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 16:10:47.885661
- Title: Hierarchical Imitation Learning for Stochastic Environments
- Title(参考訳): 確率環境における階層的模倣学習
- Authors: Maximilian Igl, Punit Shah, Paul Mougin, Sirish Srinivasan, Tarun
Gupta, Brandyn White, Kyriacos Shiarlis, Shimon Whiteson
- Abstract要約: 分布的リアリズムを改善する既存の方法は通常階層的なポリシーに依存している。
環境条件下での対人訓練に伴う変化を解消するロバスト型条件付け(RTC)を提案する。
大規模なOpen Motionデータセットを含む2つの領域の実験では、最先端のベースラインと比較して、タスクパフォーマンスを維持したり改善したりしながら、分散リアリズムが改善された。
- 参考スコア(独自算出の注目度): 31.64016324441371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many applications of imitation learning require the agent to generate the
full distribution of behaviour observed in the training data. For example, to
evaluate the safety of autonomous vehicles in simulation, accurate and diverse
behaviour models of other road users are paramount. Existing methods that
improve this distributional realism typically rely on hierarchical policies.
These condition the policy on types such as goals or personas that give rise to
multi-modal behaviour. However, such methods are often inappropriate for
stochastic environments where the agent must also react to external factors:
because agent types are inferred from the observed future trajectory during
training, these environments require that the contributions of internal and
external factors to the agent behaviour are disentangled and only internal
factors, i.e., those under the agent's control, are encoded in the type.
Encoding future information about external factors leads to inappropriate agent
reactions during testing, when the future is unknown and types must be drawn
independently from the actual future. We formalize this challenge as
distribution shift in the conditional distribution of agent types under
environmental stochasticity. We propose Robust Type Conditioning (RTC), which
eliminates this shift with adversarial training under randomly sampled types.
Experiments on two domains, including the large-scale Waymo Open Motion
Dataset, show improved distributional realism while maintaining or improving
task performance compared to state-of-the-art baselines.
- Abstract(参考訳): 模倣学習の多くの応用は、エージェントがトレーニングデータで観察される行動の完全な分布を生成する必要がある。
例えば、シミュレーションにおける自動運転車の安全性を評価するために、他の道路利用者の正確で多様な行動モデルが最重要である。
この分布的リアリズムを改善する既存の方法は通常階層的なポリシーに依存している。
これらの条件は、目標やペルソナといった、マルチモーダルな行動を引き起こすタイプのポリシーを規定する。
しかし、このような方法は、エージェントが外部要因に反応しなければならない確率的環境に不適切であることが多い: エージェントの型は、トレーニング中に観察された将来の軌道から推測されるため、これらの環境は、エージェントの振る舞いに対する内部および外部要因の寄与が切り離され、エージェントの制御下にある要素だけが型にコードされる必要がある。
外部要因に関する将来の情報をエンコードすると、テスト中に不適切なエージェント反応が起こり、将来が不明で、型が実際の未来から独立して引き出されなければならない。
この課題を,環境確率下におけるエージェントタイプの条件分布の変化として定式化する。
本稿では,ランダムなサンプル型の下での対数学習において,このシフトを排除したRobust Type Conditioning (RTC)を提案する。
大規模なwaymo open motionデータセットを含む2つのドメインの実験では、最先端のベースラインと比較して、タスクパフォーマンスを維持したり改善したりしながら、分散リアリズムを改善している。
関連論文リスト
- Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - Modulation of viability signals for self-regulatory control [1.370633147306388]
適応行動のドライバとしてのインストゥルメンタルバリューの役割を再考する。
強化学習タスクでは、好みの分布が報酬の概念に取って代わる。
論文 参考訳(メタデータ) (2020-07-18T01:11:51Z) - Estimating Generalization under Distribution Shifts via Domain-Invariant
Representations [75.74928159249225]
未知の真のターゲットラベルのプロキシとして、ドメイン不変の予測器のセットを使用します。
結果として生じるリスク見積の誤差は、プロキシモデルのターゲットリスクに依存する。
論文 参考訳(メタデータ) (2020-07-06T17:21:24Z) - Diverse and Admissible Trajectory Forecasting through Multimodal Context
Understanding [46.52703817997932]
自律走行におけるマルチエージェント軌道予測には、周囲の車両や歩行者の挙動を正確に予測するエージェントが必要である。
マルチモーダル世界から複数の入力信号を合成するモデルを提案する。
従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-06T13:59:39Z) - Path Planning Using Probability Tensor Flows [1.491819755205193]
本稿では,潜在的に複雑なシナリオにおけるモデルエージェントの動作に確率伝搬を適用した。
後向きの流れは、エージェントの振る舞いに貴重なバックグラウンド情報を提供する。
出現する振る舞いは、非常に現実的で、このフレームワークを実環境に適用する大きな可能性を実証しています。
論文 参考訳(メタデータ) (2020-03-05T17:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。