論文の概要: TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.09315v1
- Date: Wed, 14 May 2025 12:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.44206
- Title: TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving
- Title(参考訳): TransDiffuser: 自律運転のためのDecorrelated Multi-modal Representationを用いた終端軌道生成
- Authors: Xuefeng Jiang, Yuan Ma, Pengxiang Li, Leimeng Xu, Xin Wen, Kun Zhan, Zhongpu Xia, Peng Jia, XianPeng Lang, Sheng Sun,
- Abstract要約: エンド・ツー・エンドの自律運転のためのエンコーダ・デコーダに基づく生成軌道計画モデルであるTransDiffuserを提案する。
TransDiffuserはNAVSIMベンチマークで94.85のPDMSを達成した。
- 参考スコア(独自算出の注目度): 16.338107803841257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, diffusion model has shown its potential across diverse domains from vision generation to language modeling. Transferring its capabilities to modern autonomous driving systems has also emerged as a promising direction.In this work, we propose TransDiffuser, an encoder-decoder based generative trajectory planning model for end-to-end autonomous driving. The encoded scene information serves as the multi-modal conditional input of the denoising decoder. To tackle the mode collapse dilemma in generating high-quality diverse trajectories, we introduce a simple yet effective multi-modal representation decorrelation optimization mechanism during the training process.TransDiffuser achieves PDMS of 94.85 on the NAVSIM benchmark, surpassing previous state-of-the-art methods without any anchor-based prior trajectories.
- Abstract(参考訳): 近年、拡散モデルは視覚生成から言語モデリングに至るまで、様々な領域にまたがる可能性を示している。
本研究では,エンコーダデコーダをベースとした自動走行のための生成軌道計画モデルであるTransDiffuserを提案する。
符号化されたシーン情報は、復調復調器のマルチモーダル条件入力として機能する。
そこでTransDiffuser は NAVSIM ベンチマークで 94.85 の PDMS を達成し, アンカーベースの先行軌道を使わずに, 従来の最先端手法を超越した, 簡易かつ効果的なマルチモーダル表現デコリレーション最適化機構を提案する。
関連論文リスト
- Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback [33.09982089166203]
生成軌道モデルのための人間のフィードバック駆動微調整フレームワークであるTrajHFを紹介する。
TrajHFは、従来の模倣学習を超えたマルチモーダル軌道生成を洗練する。
NavSimベンチマークで93.95のPDMSを達成し、他の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-03-13T14:56:17Z) - Advancing Semantic Future Prediction through Multimodal Visual Sequence Transformers [11.075247758198762]
本稿では,統合的かつ効率的な視覚シーケンス変換器アーキテクチャを用いたマルチモーダルな将来の意味予測手法であるFUTURISTを紹介する。
計算複雑性を低減し,トレーニングパイプラインを合理化し,高解像度なマルチモーダル入力によるエンドツーエンドのトレーニングを可能にする,VAEフリー階層型トークン化プロセスを提案する。
我々は,Cityscapesデータセット上でFUTURISTを検証し,短期予測と中期予測の両方において将来的なセマンティックセグメンテーションにおける最先端性能を示す。
論文 参考訳(メタデータ) (2025-01-14T18:34:14Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - WcDT: World-centric Diffusion Transformer for Traffic Scene Generation [14.236973526112674]
本稿では,拡散確率モデルと変圧器の相補的強度を利用して,自律走行軌道生成のための新しい手法を提案する。
提案するフレームワークは,WcDT(World-Centric Diffusion Transformer)と呼ばれ,軌道生成過程全体を最適化する。
提案手法は,現実的かつ多様な軌道を生成する上で,優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-04-02T16:28:41Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - MotionLM: Multi-Agent Motion Forecasting as Language Modeling [15.317827804763699]
マルチエージェント動作予測のための言語モデルであるMotionLMを提案する。
本手法は,対話的なスコアリングに先立って個々のエージェントの軌道生成を行う,ポストホック相互作用をバイパスする。
モデルの逐次分解は、時間的因果条件のロールアウトを可能にする。
論文 参考訳(メタデータ) (2023-09-28T15:46:25Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Domain Generalization for Vision-based Driving Trajectory Generation [9.490923738117772]
都市環境における自律走行車のための視覚に基づく走行軌道生成のための領域一般化手法を提案する。
逆学習手法を用いて、軌道生成器をデコーダとして訓練する。
本稿では,提案手法と最新トラジェクトリ生成法,および最近の領域一般化法との比較を行った。
論文 参考訳(メタデータ) (2021-09-22T07:49:07Z) - A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。
提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文 参考訳(メタデータ) (2021-03-01T06:47:29Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。