論文の概要: MTR-VP: Towards End-to-End Trajectory Planning through Context-Driven Image Encoding and Multiple Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2511.22181v1
- Date: Thu, 27 Nov 2025 07:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.445116
- Title: MTR-VP: Towards End-to-End Trajectory Planning through Context-Driven Image Encoding and Multiple Trajectory Prediction
- Title(参考訳): MTR-VP:コンテキスト駆動画像符号化と複数軌道予測による終端軌道計画に向けて
- Authors: Maitrayee Keskar, Mohan Trivedi, Ross Greer,
- Abstract要約: 画像に基づくコンテキスト埋め込みを用いた自律走行のための軌道計画法を提案する。
提案手法では,VTエンコーダが入力として生画像と過去のキネマティックな状態を取り込み,コンテキスト埋め込みを生成するように訓練する。
- 参考スコア(独自算出の注目度): 2.655109011015282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method for trajectory planning for autonomous driving, learning image-based context embeddings that align with motion prediction frameworks and planning-based intention input. Within our method, a ViT encoder takes raw images and past kinematic state as input and is trained to produce context embeddings, drawing inspiration from those generated by the recent MTR (Motion Transformer) encoder, effectively substituting map-based features with learned visual representations. MTR provides a strong foundation for multimodal trajectory prediction by localizing agent intent and refining motion iteratively via motion query pairs; we name our approach MTR-VP (Motion Transformer for Vision-based Planning), and instead of the learnable intention queries used in the MTR decoder, we use cross attention on the intent and the context embeddings, which reflect a combination of information encoded from the driving scene and past vehicle states. We evaluate our methods on the Waymo End-to-End Driving Dataset, which requires predicting the agent's future 5-second trajectory in bird's-eye-view coordinates using prior camera images, agent pose history, and routing goals. We analyze our architecture using ablation studies, removing input images and multiple trajectory output. Our results suggest that transformer-based methods that are used to combine the visual features along with the kinetic features such as the past trajectory features are not effective at combining both modes to produce useful scene context embeddings, even when intention embeddings are augmented with foundation-model representations of scene context from CLIP and DINOv2, but that predicting a distribution over multiple futures instead of a single future trajectory boosts planning performance.
- Abstract(参考訳): 本稿では、自律運転のための軌道計画手法、動き予測フレームワークや計画に基づく意図入力と整合した画像に基づくコンテキスト埋め込みを学習する。
提案手法では,VTエンコーダが生画像と過去のキネマティックな状態を入力として取り込んでコンテキスト埋め込みを学習し,最新のMTRエンコーダが生成した情報からインスピレーションを得て,学習した視覚表現でマップベースの特徴を効果的に置き換える。
我々はMTR-VP (Motion Transformer for Vision-based Planning) と名付け、MTRデコーダで使用される学習可能な意図クエリの代わりに、運転シーンと過去の車両状態から符号化された情報の組み合わせを反映した、インテントとコンテキスト埋め込みに横断的な注意を払っている。
我々は,従来のカメラ画像,エージェントポーズ履歴,ルーティング目標を用いて,鳥眼視座標におけるエージェントの将来の5秒軌跡を予測する必要があるWaymo End-to-End Driving Datasetについて評価を行った。
我々は、アブレーション研究、入力画像の除去、複数軌跡出力を用いてアーキテクチャを解析する。
提案手法は,CLIP や DINOv2 のシーンコンテキストの基盤モデル表現によって意図埋め込みが拡張された場合でも,過去の軌跡特徴などの運動的特徴と相まって視覚的特徴を組み合わさるトランスフォーマーに基づく手法は,両方のモードを組み合わせてシーンコンテキストの埋め込みを生成するのに有効ではない。
関連論文リスト
- HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning [12.568968115955865]
本研究では,シーンコンテキストを協調的に符号化した将来の動き表現を学習する動き予測フレームワークであるHAMFを提案する。
我々は,我々のハイブリッドアテンション・マンバモデルにより,シンプルで軽量なアーキテクチャで最先端のモーション予測性能を実現することを示す。
論文 参考訳(メタデータ) (2025-05-21T16:16:52Z) - GC-GAT: Multimodal Vehicular Trajectory Prediction using Graph Goal Conditioning and Cross-context Attention [0.0]
レーングラフに基づく動き予測モデルを提案し、まずまずグラフに基づく目標提案を予測し、その後、複数のコンテキスト要素にまたがってそれらを融合する。
我々はnuScenesの動作予測データセットについて評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2025-04-15T12:53:07Z) - VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions [10.748597086208145]
本研究では,サラウンドビューカメラからの視覚入力を取り入れた新しい手法を提案する。
提案手法は,53msのレイテンシを実現し,リアルタイム処理を実現する。
実験の結果,視覚入力とテキスト記述の両方が軌跡予測性能の向上に寄与していることがわかった。
論文 参考訳(メタデータ) (2024-07-17T06:39:52Z) - MTR++: Multi-Agent Motion Prediction with Symmetric Scene Modeling and
Guided Intention Querying [110.83590008788745]
自律運転システムにとって、複雑な運転シナリオを理解し、情報的な決定を下すためには、動きの予測が不可欠である。
本稿では,これらの課題に対処するためのMotion TRansformer (MTR) フレームワークを提案する。
最初のMTRフレームワークは、学習可能な意図クエリを備えたトランスフォーマーエンコーダ-デコーダ構造を利用する。
複数のエージェントに対するマルチモーダル動作を同時に予測するMTR++フレームワークを導入する。
論文 参考訳(メタデータ) (2023-06-30T16:23:04Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - AutoTrajectory: Label-free Trajectory Extraction and Prediction from
Videos using Dynamic Points [92.91569287889203]
軌道抽出と予測のための新しいラベルなしアルゴリズムAutoTrajectoryを提案する。
動画中の移動物体をよりよく捉えるために,ダイナミックポイントを導入する。
ビデオ内の歩行者などの移動物体を表すインスタンスポイントに動的ポイントを集約する。
論文 参考訳(メタデータ) (2020-07-11T08:43:34Z) - Understanding Dynamic Scenes using Graph Convolution Networks [22.022759283770377]
本稿では,移動カメラが捉えた時間順のフレーム列から道路車両の挙動をモデル化する新しい枠組みを提案する。
微調整に頼らずに複数のデータセットへの学習のシームレスな移行を示す。
このような振る舞い予測手法は,様々なナビゲーションタスクにおいて即時関連性を見出す。
論文 参考訳(メタデータ) (2020-05-09T13:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。