論文の概要: CoPark: Learning Reactive Parking via Self-Play
- arxiv url: http://arxiv.org/abs/2606.04149v1
- Date: Tue, 02 Jun 2026 19:16:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.33553
- Title: CoPark: Learning Reactive Parking via Self-Play
- Title(参考訳): CoPark: セルフプレイによるリアクティブパーキングの学習
- Authors: Jiarong Wei, Yanxing Chen, Sinuo Song, Yin Wu, Anna Rehr, Abhinav Valada,
- Abstract要約: CoParkは、残余の政治アーキテクチャ上に構築されたマルチエージェントのセルフプレイRLアプローチである。
我々は,Dragon Lake Parking(DLP)とDeep Open 3D(DSC3D)にまたがる新しいリアクティブパーキングベンチマークで,6つの駐車場でポリシーをトレーニングし,ゼロショットを評価する。
CoParkは70~85%の成功を達成し、衝突速度はわずか3~6%で、古典的、模倣学習、大規模RLベースラインを大きく上回っている。
- 参考スコア(独自算出の注目度): 14.401678604179116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a single policy that reaches a goal with high geometric precision while interacting safely with nearby agents poses conflicting objectives. Precision favors commitment to a fixed geometric plan, whereas interaction requires immediate deviation when another agent intrudes, causing policies optimized for one objective to often fail at the other. We study this problem in the context of reactive autonomous parking, where multiple vehicles must reach assigned slots with sub-meter terminal accuracy while remaining responsive to neighboring vehicles throughout the maneuver. We propose CoPark, a multi-agent self-play RL approach built on a residual-policy architecture. A precomputed offline plan provides a fixed action prior, while a residual head learns the reactive corrections. The residual policy learns behaviors under self-play, where data and scripting fall short, while the fixed prior holds the slot-frame geometry that pure policies struggle to reach reliably. The key design is a partner-threat-modulated, channel-asymmetric release of the prior. A continuous threat signal shifts authority of the longitudinal channel to the residual head to enable yielding, while the lateral channel remains anchored to the precomputed reference to preserve sub-meter slot alignment. A closed-loop refinement layer corrects residual terminal error from action-grid discretization. We train our policy on six parking lots and evaluate zero-shot on our new reactive-parking benchmark spanning Dragon Lake Parking (DLP) and DeepScenario Open 3D (DSC3D). CoPark achieves ~70-85% success with only 3-6% collision rate, substantially outperforming classical, imitation-learning, and large-scale RL baselines. Importantly, the results demonstrate emergent interaction behaviors such as reverse-yielding, mid-maneuver yielding, tight-corridor passing, and queuing.
- Abstract(参考訳): 高度の幾何学的精度で目標に達するための単一のポリシーを学習し、近隣のエージェントと安全に対話することで、矛盾する目標が生じる。
精度は固定された幾何学的計画へのコミットメントを好んでおり、一方のエージェントが侵入したときの相互作用は即時逸脱を必要とし、一方の目的のために最適化されたポリシーが他方で失敗することが多い。
反応式自律駐車では、複数の車両が位置決めされたスロットに到達し、サブメーターの終端精度を保ちながら、操作中は近隣の車両に応答し続けなければならない。
残余政治アーキテクチャ上に構築されたマルチエージェント自己再生RLアプローチであるCoParkを提案する。
事前計算されたオフラインプランは、残差ヘッドが反応性補正を学習する間、予め固定されたアクションを提供する。
残余のポリシーは、データとスクリプティングが不足しているセルフプレイ下での振る舞いを学習する一方で、固定された事前は、純粋なポリシーが確実に到達するのに苦労するスロットフレーム形状を保持する。
鍵となる設計は、前者のパートナ・スリート・変調されたチャネル非対称なリリースである。
連続脅威信号は、長手チャネルの権限を残留ヘッドにシフトして利得を可能とし、一方、横チャネルは予め計算された基準に固定され、サブメータースロットアライメントを保持する。
閉ループ精製層は、動作格子の離散化から残留端子誤差を補正する。
我々は,Dragon Lake Parking (DLP) とDeepScenario Open 3D (DSC3D) にまたがる新しいリアクティブパーキングベンチマークで,このポリシーを6つの駐車場で訓練し,ゼロショットを評価する。
CoParkは3.6%の衝突率で約70-85%の成功を達成し、古典的、模倣学習、大規模RLベースラインを大きく上回っている。
重要な結果として, 逆収率, 正中収率, 強直通過, キューイングなど, 創発的相互作用の挙動が示された。
関連論文リスト
- DISA: Offline Importance Sampling for Distribution-Matching LLM-RL [56.9445657766829]
本稿では、このキャリブレーション問題をRLループの外に移動させるdisAを紹介する。
DISAは提案トラジェクトリをオフラインに描画し、重要サンプリングによってパーティション関数を推定し、結果として発生するパーティション関数の推定を凍結する。
6つの数学と3つのコードベンチマークにまたがる2つのオープンウェイトなバックボーンでは、DisdisAはオンラインに結合した分散マッチングベースラインフローにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-05-17T07:14:44Z) - Beyond the Attention Stability Boundary: Agentic Self-Synthesizing Reasoning Protocols [6.357772907811544]
SSRP(Self- Synthesizing Reasoning Protocols)は、アーキテクチャ計画と手続き実行の分離を実装するメタ認知フレームワークである。
提案する実験層は,浅電流に基づく検索パイロット,高エントロピーSOP,セマンティックハイジャック3ホップ多要素合成タスクの3種類である。
以上の結果から,GPT 5.4の非定常バニラ基準線が0.1%に崩壊し,SSRPは715X耐力限界を達成した。
論文 参考訳(メタデータ) (2026-04-27T14:13:30Z) - ADV-0: Closed-Loop Min-Max Adversarial Training for Long-Tail Robustness in Autonomous Driving [63.980630608984605]
本稿では、ゼロサムマルコフゲームとして、駆動ポリシー(ディフェンダー)と敵エージェント(アタックラー)の相互作用を扱うクローズドループのmin-max最適化フレームワークであるADV-0を提案する。
これを実現するため,我々は動的敵の進化を反復的な選好学習とし,この最適性を効率的に近似し,アルゴリズムに依存しない解をゲームに提供する。
実験により、多様な安全クリティカルな障害を効果的に露呈し、学習方針と運動プランナーの両方の一般化可能性を大幅に向上させることが示されている。
論文 参考訳(メタデータ) (2026-03-16T12:58:31Z) - AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery [5.110708177092157]
本稿では、強化学習エージェントが人間の監督なしにオープンエンドニューラルネットワーク研究を行うためのフレームワークであるAutoResearch-RLを提案する。
我々はこれをマルコフ決定過程として定式化し、軽微な仮定の下で収束保証を導出し、1つのGPUナノチャット事前学習ベンチマークで経験的に実証する。
論文 参考訳(メタデータ) (2026-03-07T17:49:44Z) - Beyond Scalar Rewards: Distributional Reinforcement Learning with Preordered Objectives for Safe and Reliable Autonomous Driving [13.01958433711007]
プリオーダー型多目的MDP(Pr-MOMDP)を導入する。
Pr-MOMDPは、スカラー信号ではなく、目的の階層に関するアクションの推論を可能にする。
分布RLを新しいペアワイズ比較計量であるQuantile Dominance (QD) で拡張し、単一の統計量に還元することなく、アクションリターン分布を評価する。
論文 参考訳(メタデータ) (2026-03-06T05:00:48Z) - Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail [85.47497935739936]
Alpamayo-R1 (AR1) は、因果推論の連鎖と軌道計画を統合する視覚言語モデルである。
また,AR1は,軌道のみのベースラインに比べて,難問の計画精度が12%向上することを示した。
今後のアップデートで、AR1モデルとCoCのサブセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-10-30T01:25:34Z) - When Planners Meet Reality: How Learned, Reactive Traffic Agents Shift nuPlan Benchmarks [39.146761527401424]
ルールベースのトラフィックエージェントは、プランナーの欠陥とバイアスランキングを隠蔽する。
我々は、最先端の学習トラフィックエージェントモデルSMARTをnuPlanに統合する。
IDMに基づくシミュレーションでは,計画性能が過大評価されている。
論文 参考訳(メタデータ) (2025-10-16T13:34:12Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs [7.125400292079228]
大きな言語モデル(LLM)は、人間の値に合わせるように微調整され、しばしばアライメントドリフトを示す。
以前の作業ではアライメント障害が特徴的だったが、これらの障害の根底にあるトレーニングタイムの信念源についてはほとんど知られていない。
TraceAlignは、モデルのトレーニングコーパスの根本原因に安全でない完了をトレースするための統一されたフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T05:03:35Z) - Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。
本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。