論文の概要: TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.09315v1
- Date: Wed, 14 May 2025 12:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.44206
- Title: TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving
- Title(参考訳): TransDiffuser: 自律運転のためのDecorrelated Multi-modal Representationを用いた終端軌道生成
- Authors: Xuefeng Jiang, Yuan Ma, Pengxiang Li, Leimeng Xu, Xin Wen, Kun Zhan, Zhongpu Xia, Peng Jia, XianPeng Lang, Sheng Sun,
- Abstract要約: エンド・ツー・エンドの自律運転のためのエンコーダ・デコーダに基づく生成軌道計画モデルであるTransDiffuserを提案する。
TransDiffuserはNAVSIMベンチマークで94.85のPDMSを達成した。
- 参考スコア(独自算出の注目度): 16.338107803841257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, diffusion model has shown its potential across diverse domains from vision generation to language modeling. Transferring its capabilities to modern autonomous driving systems has also emerged as a promising direction.In this work, we propose TransDiffuser, an encoder-decoder based generative trajectory planning model for end-to-end autonomous driving. The encoded scene information serves as the multi-modal conditional input of the denoising decoder. To tackle the mode collapse dilemma in generating high-quality diverse trajectories, we introduce a simple yet effective multi-modal representation decorrelation optimization mechanism during the training process.TransDiffuser achieves PDMS of 94.85 on the NAVSIM benchmark, surpassing previous state-of-the-art methods without any anchor-based prior trajectories.
- Abstract(参考訳): 近年、拡散モデルは視覚生成から言語モデリングに至るまで、様々な領域にまたがる可能性を示している。
本研究では,エンコーダデコーダをベースとした自動走行のための生成軌道計画モデルであるTransDiffuserを提案する。
符号化されたシーン情報は、復調復調器のマルチモーダル条件入力として機能する。
そこでTransDiffuser は NAVSIM ベンチマークで 94.85 の PDMS を達成し, アンカーベースの先行軌道を使わずに, 従来の最先端手法を超越した, 簡易かつ効果的なマルチモーダル表現デコリレーション最適化機構を提案する。
関連論文リスト
- Streaming Real-Time Trajectory Prediction Using Endpoint-Aware Modeling [54.94692733670454]
近隣の交通機関の将来の軌道は、自動運転車の経路計画と意思決定に大きな影響を与えている。
本稿では,軽量かつ高精度なストリーミングベース軌道予測手法を提案する。
当社のアプローチは推論遅延を大幅に低減し、現実のデプロイメントに適しています。
論文 参考訳(メタデータ) (2026-03-02T13:44:23Z) - Future Optical Flow Prediction Improves Robot Control & Video Generation [100.87884718953099]
本稿では,VLM(Vision-Language Model)と拡散アーキテクチャを組み合わせた新しい光フロー予測モデルFOFPredを紹介する。
我々のモデルは、高度にスケーラブルだが非構造化のソースである、Webスケールの人間活動データに基づいて訓練されている。
言語駆動設定下でのロボット操作とビデオ生成による評価は、FOFPredのクロスドメインの汎用性を確立する。
論文 参考訳(メタデータ) (2026-01-15T18:49:48Z) - Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback [33.09982089166203]
生成軌道モデルのための人間のフィードバック駆動微調整フレームワークであるTrajHFを紹介する。
TrajHFは、従来の模倣学習を超えたマルチモーダル軌道生成を洗練する。
NavSimベンチマークで93.95のPDMSを達成し、他の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-03-13T14:56:17Z) - STGDPM:Vessel Trajectory Prediction with Spatio-Temporal Graph Diffusion Probabilistic Model [0.0]
船舶軌道予測は、海上交通の安全を確保し、衝突を避けるために重要な要素である。
船舶の挙動に固有の不確実性があるため、軌道予測システムは将来的な運動状態を正確にモデル化するためのマルチモーダルなアプローチを採用する必要がある。
本稿では, 容器の状態に依存する従来の集約型手法を置き換え, 動的グラフとしての相互作用のモデル化を提案する。
論文 参考訳(メタデータ) (2025-03-11T05:50:27Z) - Advancing Semantic Future Prediction through Multimodal Visual Sequence Transformers [11.075247758198762]
本稿では,統合的かつ効率的な視覚シーケンス変換器アーキテクチャを用いたマルチモーダルな将来の意味予測手法であるFUTURISTを紹介する。
計算複雑性を低減し,トレーニングパイプラインを合理化し,高解像度なマルチモーダル入力によるエンドツーエンドのトレーニングを可能にする,VAEフリー階層型トークン化プロセスを提案する。
我々は,Cityscapesデータセット上でFUTURISTを検証し,短期予測と中期予測の両方において将来的なセマンティックセグメンテーションにおける最先端性能を示す。
論文 参考訳(メタデータ) (2025-01-14T18:34:14Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - WcDT: World-centric Diffusion Transformer for Traffic Scene Generation [14.236973526112674]
本稿では,拡散確率モデルと変圧器の相補的強度を利用して,自律走行軌道生成のための新しい手法を提案する。
提案するフレームワークは,WcDT(World-Centric Diffusion Transformer)と呼ばれ,軌道生成過程全体を最適化する。
提案手法は,現実的かつ多様な軌道を生成する上で,優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-04-02T16:28:41Z) - Tractable Joint Prediction and Planning over Discrete Behavior Modes for
Urban Driving [15.671811785579118]
自己回帰閉ループモデルのパラメータ化は,再学習を伴わずに可能であることを示す。
離散潜在モード上での完全反応性閉ループ計画を提案する。
当社のアプローチは、CARLAにおける従来の最先端技術よりも、高密度なトラフィックシナリオに挑戦する上で優れています。
論文 参考訳(メタデータ) (2024-03-12T01:00:52Z) - Controllable Diverse Sampling for Diffusion Based Motion Behavior
Forecasting [11.106812447960186]
制御可能拡散軌道(CDT)と呼ばれる新しい軌道生成器を導入する。
CDTは、情報と社会的相互作用をトランスフォーマーに基づく条件記述拡散モデルに統合し、将来の軌跡の予測を導く。
マルチモーダル性を確保するため,直進,右折,左折などの軌道モードを指示する行動トークンを組み込んだ。
論文 参考訳(メタデータ) (2024-02-06T13:16:54Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Layout Sequence Prediction From Noisy Mobile Modality [53.49649231056857]
軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。
現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。
本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
論文 参考訳(メタデータ) (2023-10-09T20:32:49Z) - MotionLM: Multi-Agent Motion Forecasting as Language Modeling [15.317827804763699]
マルチエージェント動作予測のための言語モデルであるMotionLMを提案する。
本手法は,対話的なスコアリングに先立って個々のエージェントの軌道生成を行う,ポストホック相互作用をバイパスする。
モデルの逐次分解は、時間的因果条件のロールアウトを可能にする。
論文 参考訳(メタデータ) (2023-09-28T15:46:25Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - Domain Generalization for Vision-based Driving Trajectory Generation [9.490923738117772]
都市環境における自律走行車のための視覚に基づく走行軌道生成のための領域一般化手法を提案する。
逆学習手法を用いて、軌道生成器をデコーダとして訓練する。
本稿では,提案手法と最新トラジェクトリ生成法,および最近の領域一般化法との比較を行った。
論文 参考訳(メタデータ) (2021-09-22T07:49:07Z) - A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。
提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文 参考訳(メタデータ) (2021-03-01T06:47:29Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z) - Diverse and Admissible Trajectory Forecasting through Multimodal Context
Understanding [46.52703817997932]
自律走行におけるマルチエージェント軌道予測には、周囲の車両や歩行者の挙動を正確に予測するエージェントが必要である。
マルチモーダル世界から複数の入力信号を合成するモデルを提案する。
従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-06T13:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。