論文の概要: SPACeR: Self-Play Anchoring with Centralized Reference Models
- arxiv url: http://arxiv.org/abs/2510.18060v1
- Date: Mon, 20 Oct 2025 19:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.547816
- Title: SPACeR: Self-Play Anchoring with Centralized Reference Models
- Title(参考訳): SPACeR: 集中参照モデルによるセルフプレイアンカリング
- Authors: Wei-Jer Chang, Akshay Rangesh, Kevin Joseph, Matthew Strong, Masayoshi Tomizuka, Yihan Hu, Wei Zhan,
- Abstract要約: Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
- 参考スコア(独自算出の注目度): 50.55045557371374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing autonomous vehicles (AVs) requires not only safety and efficiency, but also realistic, human-like behaviors that are socially aware and predictable. Achieving this requires sim agent policies that are human-like, fast, and scalable in multi-agent settings. Recent progress in imitation learning with large diffusion-based or tokenized models has shown that behaviors can be captured directly from human driving data, producing realistic policies. However, these models are computationally expensive, slow during inference, and struggle to adapt in reactive, closed-loop scenarios. In contrast, self-play reinforcement learning (RL) scales efficiently and naturally captures multi-agent interactions, but it often relies on heuristics and reward shaping, and the resulting policies can diverge from human norms. We propose SPACeR, a framework that leverages a pretrained tokenized autoregressive motion model as a centralized reference policy to guide decentralized self-play. The reference model provides likelihood rewards and KL divergence, anchoring policies to the human driving distribution while preserving RL scalability. Evaluated on the Waymo Sim Agents Challenge, our method achieves competitive performance with imitation-learned policies while being up to 10x faster at inference and 50x smaller in parameter size than large generative models. In addition, we demonstrate in closed-loop ego planning evaluation tasks that our sim agents can effectively measure planner quality with fast and scalable traffic simulation, establishing a new paradigm for testing autonomous driving policies.
- Abstract(参考訳): 自動運転車(AV)の開発には、安全性と効率だけでなく、社会的に認識され予測可能な現実的な人間のような行動も必要だ。
これを達成するには、マルチエージェント設定で人間らしく、高速でスケーラブルなsimエージェントポリシーが必要です。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を取り込むことができ、現実的なポリシーを作成できることを示している。
しかしながら、これらのモデルは計算コストが高く、推論中に遅く、リアクティブでクローズドループのシナリオに適応するのに苦労する。
対照的に、セルフプレイ強化学習(RL)は効率よく、自然にマルチエージェントの相互作用を捉えるが、しばしばヒューリスティックや報酬形成に依存し、その結果のポリシーは人間の規範から逸脱する可能性がある。
本研究では,事前訓練されたトークン化自己回帰運動モデルを活用するフレームワークであるSPACeRを提案する。
参照モデルは、RLのスケーラビリティを維持しながら、人間の運転分布にポリシーを固定する、可能性の高い報酬とKLの分散を提供する。
Waymo Sim Agents Challengeで評価したところ,提案手法は,提案手法を模倣学習ポリシーで実現し,推論速度は最大10倍,パラメータサイズは大規模生成モデルより50倍小さい。
さらに,我々は,高速かつスケーラブルな交通シミュレーションによるプランナー品質を効果的に測定できるクローズドループエゴ計画評価タスクを実演し,自律運転ポリシーをテストするための新たなパラダイムを確立した。
関連論文リスト
- STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning [38.63187494867502]
CtRL-Simは、リターン条件付きオフライン強化学習(RL)を利用して、リアクティブで制御可能なトラフィックエージェントを効率的に生成する手法である。
CtRL-Simは,エージェントの挙動を詳細に制御しながら,現実的な安全クリティカルシナリオを生成可能であることを示す。
論文 参考訳(メタデータ) (2024-03-29T02:10:19Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - FormulaZero: Distributionally Robust Online Adaptation via Offline
Population Synthesis [34.07399367947566]
自律レースは安全だが 保守的な政策を罰する領域です
現在のアプローチでは、他のエージェントに関する仮定を単純化するか、オンライン適応のための堅牢なメカニズムが欠如している。
レプリカ交換型マルコフ連鎖モンテカルロに基づく新しい自己再生法を開発した。
論文 参考訳(メタデータ) (2020-03-09T03:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。