論文の概要: Post-Training and Test-Time Scaling of Generative Agent Behavior Models for Interactive Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.13262v1
- Date: Mon, 15 Dec 2025 12:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.655291
- Title: Post-Training and Test-Time Scaling of Generative Agent Behavior Models for Interactive Autonomous Driving
- Title(参考訳): 対話型自律運転のための生成エージェント行動モデルの学習後およびテスト時スケーリング
- Authors: Hyunki Seong, Jeong-Kyun Lee, Heesoo Myeong, Yongho Shin, Hyun-Mook Cho, Duck Hoon Kim, Pranav Desai, Monu Surana,
- Abstract要約: グループ相対行動最適化は、行動リアリズムを維持しながら安全性を40%以上改善する。
Warm-Kは、動き選択における一貫性と多様性のバランスをとる温かいスタートのTop-Kサンプリング戦略である。
- 参考スコア(独自算出の注目度): 3.8612647047433217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning interactive motion behaviors among multiple agents is a core challenge in autonomous driving. While imitation learning models generate realistic trajectories, they often inherit biases from datasets dominated by safe demonstrations, limiting robustness in safety-critical cases. Moreover, most studies rely on open-loop evaluation, overlooking compounding errors in closed-loop execution. We address these limitations with two complementary strategies. First, we propose Group Relative Behavior Optimization (GRBO), a reinforcement learning post-training method that fine-tunes pretrained behavior models via group relative advantage maximization with human regularization. Using only 10% of the training dataset, GRBO improves safety performance by over 40% while preserving behavioral realism. Second, we introduce Warm-K, a warm-started Top-K sampling strategy that balances consistency and diversity in motion selection. Our Warm-K method-based test-time scaling enhances behavioral consistency and reactivity at test time without retraining, mitigating covariate shift and reducing performance discrepancies. Demo videos are available in the supplementary material.
- Abstract(参考訳): 複数のエージェント間の対話的な動作の学習は、自動運転における中核的な課題である。
模倣学習モデルは現実的な軌道を生成するが、安全なデモンストレーションが支配するデータセットからのバイアスを継承することが多く、安全クリティカルなケースでは堅牢性を制限する。
さらに、ほとんどの研究は、クローズドループ実行における複合的なエラーを見越して、オープンループ評価に依存している。
我々は2つの相補的な戦略でこれらの制限に対処する。
まず、グループ相対的行動最適化(GRBO)を提案する。これは、人間正則化によるグループ相対的優位性を最大化することで、事前学習された行動モデルを微調整する強化学習後学習法である。
トレーニングデータセットの10%しか使用していないGRBOは、行動リアリズムを維持しながら、安全性を40%以上改善している。
第2に,動作選択における一貫性と多様性のバランスをとる温かくスタートしたTop-Kサンプリング戦略であるWarm-Kを紹介する。
Warm-Kメソッドをベースとしたテストタイムスケーリングは,リトレーニングや共変量シフトの緩和,性能の相違を緩和することなく,テスト時の動作の一貫性と反応性を向上させる。
デモビデオは補足資料で見ることができる。
関連論文リスト
- First Order Model-Based RL through Decoupled Backpropagation [10.963895023346879]
勾配計算から軌道生成を分離する手法を提案する。
本手法は,SHACなどの特殊な移動のサンプル効率と速度を実現する。
我々は、ベンチマーク制御タスクにおける勾配アルゴリズムを実証的に検証し、実際のGo2四足歩行ロボット上での有効性を実証する。
論文 参考訳(メタデータ) (2025-08-29T19:55:25Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - HAD-Gen: Human-like and Diverse Driving Behavior Modeling for Controllable Scenario Generation [13.299893784290733]
HAD-Genは、多様な人間のような運転行動をシミュレートする現実的な交通シナリオ生成のためのフレームワークである。
提案手法は, 目標達成率90.96%, オフロードレート2.08%, 衝突速度6.91%を達成する。
論文 参考訳(メタデータ) (2025-03-19T09:38:45Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - On Learning the Tail Quantiles of Driving Behavior Distributions via
Quantile Regression and Flows [13.540998552232006]
本研究では,人間の運転行動確率分布の多様性とテール量子化を正確に把握する学習モデルの問題点を考察する。
この設定に2つのフレキシブルな量子学習フレームワークを適用し、強い分布仮定を避ける。
我々は1ステップの加速予測タスクと複数ステップのドライバーシミュレーションのロールアウトでアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-22T15:09:04Z) - EUCLID: Towards Efficient Unsupervised Reinforcement Learning with
Multi-choice Dynamics Model [46.99510778097286]
教師なし強化学習(URL)は,タスクに依存しない環境で有用な行動を学ぶための,有望なパラダイムである。
本研究では,事前学習フェーズにおける動的モデルと教師なし探索ポリシーを協調的に事前学習するための,新しいモデル融合パラダイムを提案する。
本研究では,EUCLIDが高サンプリング効率で最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2022-10-02T12:11:44Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。