論文の概要: Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models
- arxiv url: http://arxiv.org/abs/2412.05334v1
- Date: Thu, 05 Dec 2024 21:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:53:56.386805
- Title: Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models
- Title(参考訳): 閉ループ監視によるトークン交通モデルの微調整
- Authors: Zhejun Zhang, Peter Karkus, Maximilian Igl, Wenhao Ding, Yuxiao Chen, Boris Ivanovic, Marco Pavone,
- Abstract要約: トークン化されたマルチエージェントポリシーは、最近、交通シミュレーションの最先端となっている。
それらは通常、オープンループのビヘイビアクローンによって訓練される。
簡単なクローズドループ微調整戦略であるTop-K(CAT-K)のロールアウトについて述べる。
- 参考スコア(独自算出の注目度): 32.51871127681948
- License:
- Abstract: Traffic simulation aims to learn a policy for traffic agents that, when unrolled in closed-loop, faithfully recovers the joint distribution of trajectories observed in the real world. Inspired by large language models, tokenized multi-agent policies have recently become the state-of-the-art in traffic simulation. However, they are typically trained through open-loop behavior cloning, and thus suffer from covariate shift when executed in closed-loop during simulation. In this work, we present Closest Among Top-K (CAT-K) rollouts, a simple yet effective closed-loop fine-tuning strategy to mitigate covariate shift. CAT-K fine-tuning only requires existing trajectory data, without reinforcement learning or generative adversarial imitation. Concretely, CAT-K fine-tuning enables a small 7M-parameter tokenized traffic simulation policy to outperform a 102M-parameter model from the same model family, achieving the top spot on the Waymo Sim Agent Challenge leaderboard at the time of submission. The code is available at https://github.com/NVlabs/catk.
- Abstract(参考訳): 交通シミュレーションは、クローズドループでアンロールされた場合、現実世界で観測された軌道の連立分布を忠実に回復する交通エージェントのポリシーを学習することを目的としている。
大規模言語モデルに触発されて、トークン化されたマルチエージェントポリシーは、最近、交通シミュレーションの最先端となっている。
しかし、それらは一般にオープンループの挙動クローニングを通じて訓練されており、シミュレーション中にクローズループで実行される場合、共変シフトに悩まされる。
本研究では,共変量シフトを緩和する簡単なクローズループ微調整戦略であるTop-K(CAT-K)のロールアウトについて述べる。
CAT-Kファインチューニングは、強化学習や生成的対向模倣なしに既存の軌跡データのみを必要とする。
具体的には、CAT-Kファインチューニングにより、小型の7Mパラメタのトークン化トラフィックシミュレーションポリシーが、同じモデルファミリーから102Mパラメタモデルより優れ、申請時にWaymo Sim Agent Challengeのリーダーボードでトップとなる。
コードはhttps://github.com/NVlabs/catk.comで公開されている。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking [65.24988062003096]
我々は,視覚に基づく運転ポリシーをベンチマークするフレームワークであるNAVSIMを提案する。
我々のシミュレーションは非反応性であり、評価された政策と環境は互いに影響を与えない。
NAVSIMはCVPR 2024で開催され、143チームが433のエントリーを提出し、いくつかの新たな洞察を得た。
論文 参考訳(メタデータ) (2024-06-21T17:59:02Z) - BehaviorGPT: Smart Agent Simulation for Autonomous Driving with Next-Patch Prediction [22.254486248785614]
BehaviorGPTは、複数のエージェントのシーケンシャルな振る舞いをシミュレートするために設計された、均一で完全な自己回帰変換器である。
本稿では,自己回帰モデルによる負の効果を軽減するために,Next-Patch Prediction Paradigm (NP3)を導入する。
ビヘイビアGPTは2024年のオープン・シム・エージェント・チャレンジで、リアリズムスコアが0.7473、ミナードスコアが1.4147で優勝した。
論文 参考訳(メタデータ) (2024-05-27T17:28:25Z) - Tractable Joint Prediction and Planning over Discrete Behavior Modes for
Urban Driving [15.671811785579118]
自己回帰閉ループモデルのパラメータ化は,再学習を伴わずに可能であることを示す。
離散潜在モード上での完全反応性閉ループ計画を提案する。
当社のアプローチは、CARLAにおける従来の最先端技術よりも、高密度なトラフィックシナリオに挑戦する上で優れています。
論文 参考訳(メタデータ) (2024-03-12T01:00:52Z) - SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for
Autonomous Driving [27.776472262857045]
本稿では,自動運転車のための簡易かつ効率的な運動予測ベースライン(SIMPL)を提案する。
メッセージ転送を対称的に行う,コンパクトで効率的なグローバル機能融合モジュールを提案する。
強力なベースラインとして、SIMPLはArgoverse 1と2のモーション予測ベンチマークで高い競争性能を示す。
論文 参考訳(メタデータ) (2024-02-04T15:07:49Z) - CAT: Closed-loop Adversarial Training for Safe End-to-End Driving [54.60865656161679]
Adversarial Training (CAT) は、自動運転車における安全なエンドツーエンド運転のためのフレームワークである。
Catは、安全クリティカルなシナリオでエージェントを訓練することで、運転エージェントの安全性を継続的に改善することを目的としている。
猫は、訓練中のエージェントに対抗する敵シナリオを効果的に生成できる。
論文 参考訳(メタデータ) (2023-10-19T02:49:31Z) - AdaCat: Adaptive Categorical Discretization for Autoregressive Models [84.85102013917606]
AdaCat(Adaptive Categorical Discretization)と呼ばれる,効率的で表現性の高いマルチモーダルパラメータ化を提案する。
AdaCatは自己回帰モデルの各次元を適応的に識別し、モデルが関心の細かい間隔に密度を割り当てることを可能にする。
論文 参考訳(メタデータ) (2022-08-03T17:53:46Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Learning from Simulation, Racing in Reality [126.56346065780895]
ミニチュアレースカープラットフォーム上で自律的なレースを行うための強化学習ベースのソリューションを提案する。
シミュレーションで純粋に訓練されたポリシーは、実際のロボットのセットアップにうまく移行できることを示す。
論文 参考訳(メタデータ) (2020-11-26T14:58:49Z) - Integrating Deep Reinforcement Learning with Model-based Path Planners
for Automated Driving [0.0]
本稿では、経路計画管を視覚ベースのDRLフレームワークに統合するためのハイブリッドアプローチを提案する。
要約すると、DRLエージェントは、パスプランナーのウェイポイントをできるだけ近くに追従するように訓練される。
実験の結果,提案手法は経路を計画し,ランダムに選択した起点-終点間を移動可能であることがわかった。
論文 参考訳(メタデータ) (2020-02-02T17:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。