論文の概要: Learning Rollout from Sampling:An R1-Style Tokenized Traffic Simulation Model
- arxiv url: http://arxiv.org/abs/2603.24989v1
- Date: Thu, 26 Mar 2026 03:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.079313
- Title: Learning Rollout from Sampling:An R1-Style Tokenized Traffic Simulation Model
- Title(参考訳): サンプリングによるロールアウト学習:R1-Style Tokenized Traffic Simulation Model
- Authors: Ziyan Wang, Peng Chen, Ding Li, Chiwei Li, Qichao Zhang, Zhongpu Xia, Guizhen Yu,
- Abstract要約: R1Simは、運動トークンエントロピーパターンに基づく強化学習を最初に試みる試みである。
エントロピー誘導型適応サンプリング機構を導入し,不確実性が高いが高い確率で見落とされた動きトークンに着目した。
全体として、これらのコンポーネントは多種多様な高不確実性サンプリングとグループレベルの比較評価を通じて、バランスの取れた探索・探索のトレードオフを可能にする。
- 参考スコア(独自算出の注目度): 21.835465637680798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning diverse and high-fidelity traffic simulations from human driving demonstrations is crucial for autonomous driving evaluation. The recent next-token prediction (NTP) paradigm, widely adopted in large language models (LLMs), has been applied to traffic simulation and achieves iterative improvements via supervised fine-tuning (SFT). However, such methods limit active exploration of potentially valuable motion tokens, particularly in suboptimal regions. Entropy patterns provide a promising perspective for enabling exploration driven by motion token uncertainty. Motivated by this insight, we propose a novel tokenized traffic simulation policy, R1Sim, which represents an initial attempt to explore reinforcement learning based on motion token entropy patterns, and systematically analyzes the impact of different motion tokens on simulation outcomes. Specifically, we introduce an entropy-guided adaptive sampling mechanism that focuses on previously overlooked motion tokens with high uncertainty yet high potential. We further optimize motion behaviors using Group Relative Policy Optimization (GRPO), guided by a safety-aware reward design. Overall, these components enable a balanced exploration-exploitation trade-off through diverse high-uncertainty sampling and group-wise comparative estimation, resulting in realistic, safe, and diverse multi-agent behaviors. Extensive experiments on the Waymo Sim Agent benchmark demonstrate that R1Sim achieves competitive performance compared to state-of-the-art methods.
- Abstract(参考訳): 人間の運転実験から多種多様かつ高忠実な交通シミュレーションを学習することは、自動運転評価に不可欠である。
近年,大規模言語モデル (LLM) に広く採用されているNTPパラダイムが交通シミュレーションに適用され,教師付き微調整 (SFT) による反復的改善を実現している。
しかし、このような手法は、特に準最適領域において、潜在的に価値のある動きトークンの活発な探索を制限している。
エントロピーパターンは、運動トークンの不確実性によって駆動される探索を可能にするための有望な視点を提供する。
そこで本研究では,移動トークンのエントロピーパターンに基づく強化学習を最初に試み,異なる動作トークンがシミュレーション結果に与える影響を体系的に解析する,新しいトークン化トラフィックシミュレーションポリシーR1Simを提案する。
具体的にはエントロピー誘導型適応サンプリング機構を導入し,不確実性が高いが高い可能性を持つ従来見過ごされていた動きトークンに着目した。
グループ相対政策最適化(GRPO)を用いて、安全に配慮した報酬設計により、動きの挙動をさらに最適化する。
全体として、これらのコンポーネントは、多種多様な高不確かさサンプリングとグループレベルの比較評価を通じて、バランスの取れた探索・探索のトレードオフを可能にし、現実的で安全で多様なマルチエージェントの振る舞いをもたらす。
Waymo Sim Agentベンチマークの大規模な実験は、R1Simが最先端の手法と比較して競争性能を達成することを示した。
関連論文リスト
- ForSim: Stepwise Forward Simulation for Traffic Policy Fine-Tuning [13.668397738433852]
ForSimは段階的にクローズドループフォワードシミュレーションパラダイムである。
マルチモーダルな振る舞いの多様性を保ちながら、モダリティ内整合性を確保する。
ForSimは、グループ相対最適化と協調して、きめ細かいトラフィックポリシーを運用する。
論文 参考訳(メタデータ) (2026-02-02T10:20:11Z) - Diffusion-Based Environment-Aware Trajectory Prediction [3.1406146587437904]
自動運転車の安全かつ効率的な運転には、交通参加者の将来の軌跡を予測する能力が不可欠である。
本稿では,多エージェント軌道予測のための拡散モデルを提案する。
このモデルは、交通参加者と環境の間の複雑な相互作用を捉え、データのマルチモーダルな性質を正確に学習することができる。
論文 参考訳(メタデータ) (2024-03-18T10:35:15Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - Objective-aware Traffic Simulation via Inverse Reinforcement Learning [31.26257563160961]
逆強化学習問題として交通シミュレーションを定式化する。
動的ロバストシミュレーション学習のためのパラメータ共有逆強化学習モデルを提案する。
提案モデルでは,実世界の車両の軌道を模倣し,同時に報酬関数を復元することができる。
論文 参考訳(メタデータ) (2021-05-20T07:26:34Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。