論文の概要: Building reliable sim driving agents by scaling self-play
- arxiv url: http://arxiv.org/abs/2502.14706v1
- Date: Thu, 20 Feb 2025 16:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 17:44:00.838512
- Title: Building reliable sim driving agents by scaling self-play
- Title(参考訳): 自己再生のスケーリングによる信頼性のあるシミュレート駆動エージェントの構築
- Authors: Daphne Cornelisse, Aarav Pandya, Kevin Joseph, Joseph Suárez, Eugene Vinitsky,
- Abstract要約: 1つのGPUでスクラッチからトレーニングすることで、エージェントは1日以内に完全なトレーニングセットを解決します。
彼らは効果的にテストシーンを見えないように一般化し、99.8%のゴール達成率と0.8%以下の衝突とオフロードインシデントを達成した。
事前訓練されたエージェントと完全なコードベースの両方をオープンソースにしています。
- 参考スコア(独自算出の注目度): 3.3378669626639423
- License:
- Abstract: Simulation agents are essential for designing and testing systems that interact with humans, such as autonomous vehicles (AVs). These agents serve various purposes, from benchmarking AV performance to stress-testing the system's limits, but all use cases share a key requirement: reliability. A simulation agent should behave as intended by the designer, minimizing unintended actions like collisions that can compromise the signal-to-noise ratio of analyses. As a foundation for reliable sim agents, we propose scaling self-play to thousands of scenarios on the Waymo Open Motion Dataset under semi-realistic limits on human perception and control. Training from scratch on a single GPU, our agents nearly solve the full training set within a day. They generalize effectively to unseen test scenes, achieving a 99.8% goal completion rate with less than 0.8% combined collision and off-road incidents across 10,000 held-out scenarios. Beyond in-distribution generalization, our agents show partial robustness to out-of-distribution scenes and can be fine-tuned in minutes to reach near-perfect performance in those cases. Demonstrations of agent behaviors can be found at this link. We open-source both the pre-trained agents and the complete code base. Demonstrations of agent behaviors can be found at \url{https://sites.google.com/view/reliable-sim-agents}.
- Abstract(参考訳): シミュレーションエージェントは、自動運転車(AV)のような人間と相互作用するシステムを設計し、テストするために不可欠である。
これらのエージェントは、AVパフォーマンスのベンチマークからシステムの限界のストレステストまで、さまざまな目的で機能するが、すべてのユースケースは、信頼性という重要な要件を共有している。
シミュレーションエージェントは、設計者が意図したように振る舞うべきであり、分析の信号対雑音比を損なう可能性のある衝突のような意図しない行動を最小化する。
信頼性のあるシミュレーションエージェントの基盤として、人間の知覚と制御の半現実的な制限の下で、Waymo Open Motion Dataset上で数千のシナリオにセルフプレイをスケールすることを提案する。
1つのGPUでスクラッチからトレーニングすることで、エージェントは1日以内に完全なトレーニングセットを解決します。
彼らは効果的にテストシーンを見えないように一般化し、99.8%のゴール達成率を達成し、0.8%未満の衝突と1万の保留シナリオでオフロードインシデントを発生させる。
分布内一般化以外にも,エージェントは分布外シーンに部分的堅牢性を示し,数分で微調整することで,それらの場合のほぼ完全な性能を実現することができる。
エージェントの振る舞いのデモはこのリンクで見ることができる。
事前訓練されたエージェントと完全なコードベースの両方をオープンソースにしています。
エージェントの振る舞いのデモは \url{https://sites.google.com/view/reliable-sim-agents} で見ることができる。
関連論文リスト
- WHALES: A Multi-agent Scheduling Dataset for Enhanced Cooperation in Autonomous Driving [54.365702251769456]
我々は、駆動シーケンス当たり平均8.4エージェントのデータセットを提示する。
自律運転データセットの中で最大のエージェントと視点を提供するだけでなく、WHALESはエージェントの振る舞いを記録する。
エージェントスケジューリングタスクにおいて,エゴエージェントが複数の候補エージェントの1つを選択して協調する実験を行う。
論文 参考訳(メタデータ) (2024-11-20T14:12:34Z) - Foundation Models for Rapid Autonomy Validation [4.417336418010182]
重要な課題は、自動運転車が遭遇するあらゆる種類の運転シナリオでテストする必要があることだ。
本研究では,運転シナリオを再構築するための行動基礎モデル,特にマスク付きオートエンコーダ(MAE)の使用を提案する。
論文 参考訳(メタデータ) (2024-10-22T15:32:43Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - GPUDrive: Data-driven, multi-agent driving simulation at 1 million FPS [4.172988187048097]
GPUDriveはMadrona Game Engine上に構築されたGPUアクセラレーションされたマルチエージェントシミュレータである。
Open Motionデータセット上で強化学習エージェントをトレーニングし、数分で効率的な目標達成を実現し、数時間で数千のシナリオにスケールアップします。
論文 参考訳(メタデータ) (2024-08-02T21:37:46Z) - Human-compatible driving partners through data-regularized self-play reinforcement learning [3.9682126792844583]
HR-PPO(Human-Regularized PPO)は、エージェントが人間の参照ポリシーから逸脱する小さなペナルティで自己プレイを通じて訓練されるマルチエージェントアルゴリズムである。
その結果,HR-PPOは93%,オフロード率3.5%,衝突率3%の目標達成に極めて有効であることがわかった。
論文 参考訳(メタデータ) (2024-03-28T17:56:56Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - TrafficBots: Towards World Models for Autonomous Driving Simulation and
Motion Prediction [149.5716746789134]
我々は,データ駆動型交通シミュレーションを世界モデルとして定式化できることを示した。
動作予測とエンドツーエンドの運転に基づくマルチエージェントポリシーであるTrafficBotsを紹介する。
オープンモーションデータセットの実験は、TrafficBotsが現実的なマルチエージェント動作をシミュレートできることを示している。
論文 参考訳(メタデータ) (2023-03-07T18:28:41Z) - Multi-Agent Variational Occlusion Inference Using People as Sensors [28.831182328958477]
エージェントの振る舞いから占有度を推定することは本質的にマルチモーダル問題である。
そこで本研究では,人間のエージェントの観察行動をセンサ測定として特徴付けるオクルージョン推論手法を提案する。
我々のアプローチは、実世界のデータセットで検証され、ベースラインを上回り、リアルタイムに有能なパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-09-05T21:56:54Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。