論文の概要: Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.23993v1
- Date: Sun, 28 Sep 2025 17:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.577316
- Title: Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning
- Title(参考訳): R1-Style Reinforcement Fine-Tuningによるマルチエージェント交通シミュレーションの高速化
- Authors: Muleilan Pei, Shaoshuai Shi, Shaojie Shen,
- Abstract要約: エージェントの振る舞いを人間の好みや評価指標とよりよく整合させるため,次世代の予測モデルに適した新しいR1型強化微調整パラダイムを提案する。
提案手法では、分布アライメントを改善するためのメトリック指向ポリシー最適化アルゴリズムと、スーパービジョンファインチューニング(SFT)と強化ファインチューニング(RFT)を交互に行う反復的な"SFT-RFT-SFT"トレーニング戦略を導入する。
Open Sim Agents Challengeの結果、SMART-R1は総合リアリズムメタスコア0.7858で最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 35.83999932977034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scalable and realistic simulation of multi-agent traffic behavior is critical for advancing autonomous driving technologies. Although existing data-driven simulators have made significant strides in this domain, they predominantly rely on supervised learning to align simulated distributions with real-world driving scenarios. A persistent challenge, however, lies in the distributional shift that arises between training and testing, which often undermines model generalization in unseen environments. To address this limitation, we propose SMART-R1, a novel R1-style reinforcement fine-tuning paradigm tailored for next-token prediction models to better align agent behavior with human preferences and evaluation metrics. Our approach introduces a metric-oriented policy optimization algorithm to improve distribution alignment and an iterative "SFT-RFT-SFT" training strategy that alternates between Supervised Fine-Tuning (SFT) and Reinforcement Fine-Tuning (RFT) to maximize performance gains. Extensive experiments on the large-scale Waymo Open Motion Dataset (WOMD) validate the effectiveness of this simple yet powerful R1-style training framework in enhancing foundation models. The results on the Waymo Open Sim Agents Challenge (WOSAC) showcase that SMART-R1 achieves state-of-the-art performance with an overall realism meta score of 0.7858, ranking first on the leaderboard at the time of submission.
- Abstract(参考訳): マルチエージェント交通行動のスケーラブルで現実的なシミュレーションは、自動運転技術の進歩に不可欠である。
既存のデータ駆動シミュレータはこの領域で大きな進歩を遂げているが、シミュレーションされた分布を実世界の運転シナリオと整合させるため、主に教師あり学習に依存している。
しかし、永続的な課題は、トレーニングとテストの間に生じる分散シフトにあり、しばしば目に見えない環境でのモデルの一般化を損なう。
SMART-R1は,人間の嗜好や評価指標とエージェントの振る舞いをよりよく整合させるために,次世代の予測モデルに適した新しいR1型強化微調整パラダイムである。
提案手法では,分布アライメントを改善するためのメトリック指向ポリシ最適化アルゴリズムと,スーパービジョンファインチューニング(SFT)と強化ファインチューニング(RFT)を交互に行い,性能向上を最大化する反復的"SFT-RFT-SFT"トレーニング戦略を導入する。
大規模なWaymo Open Motion Dataset(WOMD)に関する大規模な実験は、基礎モデルの強化において、このシンプルだが強力なR1スタイルのトレーニングフレームワークの有効性を検証する。
Waymo Open Sim Agents Challenge (WOSAC) の結果は、SMART-R1が最先端のパフォーマンスを達成し、全体のリアリズムメタスコアは0.7858で、応募時にトップボードにランクインしたことを示している。
関連論文リスト
- Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling [43.835234728790795]
Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。
スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
論文 参考訳(メタデータ) (2025-07-02T13:04:09Z) - RIFT: Group-Relative RL Fine-Tuning for Realistic and Controllable Traffic Simulation [13.319344167881383]
データ駆動シミュレーターにおいて、模擬学習事前学習を行う2段階のAV中心シミュレーションフレームワークを導入する。
次に、物理に基づくシミュレータで微調整を学習し、スタイルレベルの制御性を向上する。
微調整段階において,新しいグループ関連RL微調整戦略であるRIFTを提案する。
論文 参考訳(メタデータ) (2025-05-06T09:12:37Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - SMART: Scalable Multi-agent Real-time Motion Generation via Next-token Prediction [4.318757942343036]
本稿では,ベクトル化された地図とエージェント軌跡データを離散的なシーケンストークンにモデル化する,新しい自律走行運動生成パラダイムを提案する。
これらのトークンはデコーダのみのトランスフォーマーアーキテクチャを通じて処理され、次のトークン予測タスクをトレーニングする。
複数のデータセットから10億以上のモーショントークンを収集し、モデルのスケーラビリティを検証しました。
論文 参考訳(メタデータ) (2024-05-24T16:17:35Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。