論文の概要: Multi-ORFT: Stable Online Reinforcement Fine-Tuning for Multi-Agent Diffusion Planning in Cooperative Driving
- arxiv url: http://arxiv.org/abs/2604.11734v2
- Date: Tue, 14 Apr 2026 07:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.527037
- Title: Multi-ORFT: Stable Online Reinforcement Fine-Tuning for Multi-Agent Diffusion Planning in Cooperative Driving
- Title(参考訳): Multi-ORFT: 協調運転における多エージェント拡散計画のための安定オンライン強化ファインチューニング
- Authors: Haojie Bai, Aimin Li, Ruoyu Yao, Xiongwei Zhao, Tingting Zhang, Xing Zhang, Lin Gao, and Jun Ma,
- Abstract要約: シーン条件付き拡散事前学習とオンライン強化後訓練を併用したMulti-ORFTを提案する。
プレトレーニングでは、アジェント間自己注意、クロスアテンション、AdaLN-Zeroベースのシーンコンディショニングを使用する。
ポストトレーニングでは、オンライン最適化のための段階的に逆相対的な可能性を明らかにする2段階のMDPを定式化する。
- 参考スコア(独自算出の注目度): 22.627579758896967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Closed-loop cooperative driving requires planners that generate realistic multimodal multi-agent trajectories while improving safety and traffic efficiency. Existing diffusion planners can model multimodal behaviors from demonstrations, but they often exhibit weak scene consistency and remain poorly aligned with closed-loop objectives; meanwhile, stable online post-training in reactive multi-agent environments remains difficult. We present Multi-ORFT, which couples scene-conditioned diffusion pre-training with stable online reinforcement post-training. In pre-training, the planner uses inter-agent self-attention, cross-attention, and AdaLN-Zero-based scene conditioning to improve scene consistency and road adherence of joint trajectories. In post-training, we formulate a two-level MDP that exposes step-wise reverse-kernel likelihoods for online optimization, and combine dense trajectory-level rewards with variance-gated group-relative policy optimization (VG-GRPO) to stabilize training. On the WOMD closed-loop benchmark, Multi-ORFT reduces collision rate from 2.04% to 1.89% and off-road rate from 1.68% to 1.36%, while increasing average speed from 8.36 to 8.61 m/s relative to the pre-trained planner, and it outperforms strong open-source baselines including SMART-large, SMART-tiny-CLSFT, and VBD on the primary safety and efficiency metrics. These results show that coupling scene-consistent denoising with stable online diffusion-policy optimization improves the reliability of closed-loop cooperative driving.
- Abstract(参考訳): クローズドループ協調運転は、安全と交通効率を改善しつつ、現実的なマルチモーダルなマルチエージェント軌道を生成するプランナーを必要とする。
既存の拡散プランナーは、デモからマルチモーダルな振る舞いをモデル化できるが、しばしばシーンの一貫性が弱く、閉ループの目的と整合性に乏しい。
シーン条件付き拡散事前学習とオンライン強化後訓練を併用したMulti-ORFTを提案する。
プレトレーニングでは、アジェント間自己注意、クロスアテンション、AdaLN-Zeroベースのシーンコンディショニングを使用して、共同軌道のシーン一貫性とロードアテンデンスを改善する。
ポストトレーニングにおいて、オンライン最適化のための段階的に逆カーネルの可能性を明らかにする2段階のMDPを定式化し、高密度な軌道レベルの報酬と分散ゲート型グループ相対ポリシー最適化(VG-GRPO)を組み合わせてトレーニングを安定化させる。
WOMDのクローズドループベンチマークでは、Multi-ORFTは衝突速度を2.04%から1.89%、オフロード速度を1.68%から1.36%に減らし、平均速度を8.36から8.61m/sに引き上げ、SMART-large、SMART-tiny-CLSFT、VBDといった強力なオープンソースベースラインを上回っている。
これらの結果から,安定なオンライン拡散・ポリティクス最適化によるシーン一貫性デノナイズにより,クローズドループ協調運転の信頼性が向上することが示唆された。
関連論文リスト
- HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving [51.268878540511054]
我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案する。
我々は,NAVSIMとHUGSIMの両方でHADが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-04-04T04:12:47Z) - ADV-0: Closed-Loop Min-Max Adversarial Training for Long-Tail Robustness in Autonomous Driving [63.980630608984605]
本稿では、ゼロサムマルコフゲームとして、駆動ポリシー(ディフェンダー)と敵エージェント(アタックラー)の相互作用を扱うクローズドループのmin-max最適化フレームワークであるADV-0を提案する。
これを実現するため,我々は動的敵の進化を反復的な選好学習とし,この最適性を効率的に近似し,アルゴリズムに依存しない解をゲームに提供する。
実験により、多様な安全クリティカルな障害を効果的に露呈し、学習方針と運動プランナーの両方の一般化可能性を大幅に向上させることが示されている。
論文 参考訳(メタデータ) (2026-03-16T12:58:31Z) - Multi-Objective Reinforcement Learning for Large-Scale Mixed Traffic Control [3.1133295867933057]
本稿では,多目的強化学習と局所的交差点制御,ネットワークレベルの協調のための戦略的ルーティングを組み合わせた階層型フレームワークを提案する。
提案手法では,競合回避のための明示的なリスクシグナルをエージェントに提供するConflict Threat Vectorを導入し,すべてのトラフィックストリームに対して公平なサービスを保証するキューパリティペナルティを実現する。
論文 参考訳(メタデータ) (2025-12-12T03:10:26Z) - Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning [56.240199425429445]
マルチロボット運動計画(MPMP)は、共有された連続作業空間で動作する複数のロボットのための軌道を生成する。
離散マルチエージェント探索(MAPF)法は,その拡張性から広く採用されているが,粗い離散化の軌道品質は高い。
本稿では、制約付き生成拡散モデルを用いた離散MAPF解法を導入することにより、2つのアプローチの限界に対処する。
論文 参考訳(メタデータ) (2025-08-27T17:59:36Z) - Dashing for the Golden Snitch: Multi-Drone Time-Optimal Motion Planning with Multi-Agent Reinforcement Learning [10.579847782542982]
本稿では,マルチエージェント強化学習を用いた分散型ポリシネットワークを時間-最適マルチドローン飛行に適用する。
飛行効率と衝突回避のバランスをとるために,最適化手法に着想を得たソフト衝突防止機構を導入する。
大規模シミュレーションでは, 単流体システムと比較して性能のトレードオフはわずかに小さいものの, 衝突速度が低い状態で, 最適に近い性能を維持することが示されている。
論文 参考訳(メタデータ) (2024-09-25T08:09:52Z) - iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed
Multi-Agent Reinforcement Learning [57.24340061741223]
本稿では,高密度および不均一な交通シナリオにおける軌跡や意図を予測できる分散マルチエージェント強化学習(MARL)アルゴリズムを提案する。
インテント対応プランニングのアプローチであるiPLANにより、エージェントは近くのドライバーの意図をローカルな観察からのみ推測できる。
論文 参考訳(メタデータ) (2023-06-09T20:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。