論文の概要: Importance Sampling-Guided Meta-Training for Intelligent Agents in Highly Interactive Environments
- arxiv url: http://arxiv.org/abs/2407.15839v2
- Date: Mon, 28 Oct 2024 04:48:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:45:25.605101
- Title: Importance Sampling-Guided Meta-Training for Intelligent Agents in Highly Interactive Environments
- Title(参考訳): 高対話環境におけるインテリジェントエージェントのための重要サンプリング型メタトレーニング
- Authors: Mansur Arief, Mike Timmerman, Jiachen Li, David Isele, Mykel J Kochenderfer,
- Abstract要約: 本研究では,ガイド付きメタRLと重要サンプリング(IS)を統合し,トレーニング分布を最適化する新たなトレーニングフレームワークを提案する。
現実世界のデータセットから自然な分布を推定することにより、このフレームワークは、共通および極端な駆動シナリオ間のバランスのとれたフォーカスを保証する。
- 参考スコア(独自算出の注目度): 43.144056801987595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training intelligent agents to navigate highly interactive environments presents significant challenges. While guided meta reinforcement learning (RL) approach that first trains a guiding policy to train the ego agent has proven effective in improving generalizability across scenarios with various levels of interaction, the state-of-the-art method tends to be overly sensitive to extreme cases, impairing the agents' performance in the more common scenarios. This study introduces a novel training framework that integrates guided meta RL with importance sampling (IS) to optimize training distributions iteratively for navigating highly interactive driving scenarios, such as T-intersections or roundabouts. Unlike traditional methods that may underrepresent critical interactions or overemphasize extreme cases during training, our approach strategically adjusts the training distribution towards more challenging driving behaviors using IS proposal distributions and applies the importance ratio to de-bias the result. By estimating a naturalistic distribution from real-world datasets and employing a mixture model for iterative training refinements, the framework ensures a balanced focus across common and extreme driving scenarios. Experiments conducted with both synthetic and naturalistic datasets demonstrate both accelerated training and performance improvements under highly interactive driving tasks.
- Abstract(参考訳): 高度にインタラクティブな環境をナビゲートするためのインテリジェントエージェントのトレーニングは、大きな課題を提示します。
指導的メタ強化学習(英語版)(RL)アプローチは、まず、エゴエージェントを訓練するための指導方針を訓練するが、様々なレベルの相互作用を持つシナリオにおける一般化性の向上には有効であることが証明されているが、最先端の手法は極端なケースに対して過度に敏感であり、より一般的なシナリオではエージェントのパフォーマンスを損なう傾向にある。
本研究では,ガイド付きメタRLと重要サンプリング(IS)を統合した新たなトレーニングフレームワークを提案する。
トレーニング中に重要な相互作用を過度に強調したり、極端なケースを過度に強調する従来の方法とは異なり、本手法はIS提案分布を用いて、より困難な運転行動に向けてトレーニング分布を戦略的に調整し、その重要度をバイアスの除去に応用する。
実世界のデータセットからの自然な分布を推定し、反復的なトレーニング改善のための混合モデルを使用することで、このフレームワークは、共通および極端な駆動シナリオにまたがるバランスのとれたフォーカスを保証する。
人工的および自然的両方のデータセットを用いて行った実験は、高度に対話的な運転タスク下での加速トレーニングと性能改善の両方を実証する。
関連論文リスト
- Enabling Adaptive Agent Training in Open-Ended Simulators by Targeting Diversity [10.402855891273346]
DIVAは複雑なオープンエンドシミュレータで多様なトレーニングタスクを生成するための進化的アプローチである。
実験の結果,DIVAの複雑なパラメータ化を克服し,適応剤の挙動を訓練するユニークな能力を示す。
論文 参考訳(メタデータ) (2024-11-07T06:27:12Z) - Analyzing Closed-loop Training Techniques for Realistic Traffic Agent Models in Autonomous Highway Driving Simulations [4.486517725808305]
我々は,高速道路走行シミュレーションのための閉ループ手法に着目し,異なる訓練原理の広範な比較分析を行う。
我々は, (i) オープンループ対クローズドループマルチエージェントトレーニング, (ii) 逆逆対決定論的指導トレーニング, (iii) 強化損失の影響, (iv) ログ再生エージェントと併用したトレーニングの影響を実験的に比較し, 現実的なエージェントモデリングに適したトレーニングテクニックを同定した。
論文 参考訳(メタデータ) (2024-10-21T13:16:58Z) - Learning to Model Diverse Driving Behaviors in Highly Interactive
Autonomous Driving Scenarios with Multi-Agent Reinforcement Learning [0.751422531359304]
MARL(Multi-Agent Reinforcement Learning)は多くの運転シナリオにおいて印象的な結果を示している。
しかし、これらの訓練された政策のパフォーマンスは、様々な運転スタイルや個性に直面した場合に影響を及ぼす可能性がある。
本稿では、協調価値関数とパーソナリティパラメータを含むPersonality Modeling Network(PeMN)を紹介する。
論文 参考訳(メタデータ) (2024-02-21T02:44:33Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment [12.122881147337505]
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。
このアプローチでは、エージェントは集中型プランナーとのみ通信し、オンラインで分散的な決定を行う。
訓練効率を高めるため,多段階強化学習において多段階値収束を行う。
論文 参考訳(メタデータ) (2023-10-25T14:21:22Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement
Learning in Mixed Dynamic Environments [30.407700996710023]
本稿では,進化的強化学習法(MAPPER)を用いた分散部分観測可能なマルチエージェントパス計画を提案する。
我々は、長距離ナビゲーションタスクを、グローバルプランナーの指導の下で、より簡単なサブタスクに分解する。
提案手法は,イメージベース表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。
論文 参考訳(メタデータ) (2020-07-30T20:14:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。