論文の概要: DONUT: A Decoder-Only Model for Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2506.06854v2
- Date: Fri, 01 Aug 2025 14:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.533016
- Title: DONUT: A Decoder-Only Model for Trajectory Prediction
- Title(参考訳): DONUT:軌道予測のためのデコーダ専用モデル
- Authors: Markus Knoche, Daan de Geus, Bastian Leibe,
- Abstract要約: トラジェクトリをアンロールするデコーダオンリーネットワークであるDONUTを提案する。
我々は、過去の軌跡を符号化し、単一の自己回帰モデルで将来の軌跡を予測する。
我々はArgoverse 2シングルエージェントモーション予測ベンチマークにおいて、最先端の新たな結果を得る。
- 参考スコア(独自算出の注目度): 12.89335607622991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting the motion of other agents in a scene is highly relevant for autonomous driving, as it allows a self-driving car to anticipate. Inspired by the success of decoder-only models for language modeling, we propose DONUT, a Decoder-Only Network for Unrolling Trajectories. Unlike existing encoder-decoder forecasting models, we encode historical trajectories and predict future trajectories with a single autoregressive model. This allows the model to make iterative predictions in a consistent manner, and ensures that the model is always provided with up-to-date information, thereby enhancing performance. Furthermore, inspired by multi-token prediction for language modeling, we introduce an 'overprediction' strategy that gives the model the auxiliary task of predicting trajectories at longer temporal horizons. This allows the model to better anticipate the future and further improves performance. Through experiments, we demonstrate that our decoder-only approach outperforms the encoder-decoder baseline, and achieves new state-of-the-art results on the Argoverse 2 single-agent motion forecasting benchmark.
- Abstract(参考訳): シーン内の他のエージェントの動きを予測することは、自動運転車が予測できるため、自動運転に非常に関係している。
言語モデリングにおけるデコーダのみのモデルの成功に触発されて,DONUTを提案する。
既存のエンコーダ・デコーダ予測モデルとは異なり、過去のトラジェクトリをエンコードし、単一の自己回帰モデルで将来のトラジェクトリを予測する。
これにより、モデルは一貫した方法で反復予測を行うことができ、常に最新の情報を提供して、パフォーマンスを向上させることができる。
さらに,言語モデリングのマルチトークン予測にインスパイアされ,より長い時間的地平線における軌道予測の補助的タスクをモデルに与える「過剰予測」戦略を導入する。
これにより、モデルが将来をより期待でき、パフォーマンスがさらに向上します。
実験により、このデコーダのみのアプローチは、エンコーダ-デコーダベースラインよりも優れており、Argoverse 2単エージェントモーション予測ベンチマークにおいて、新しい最先端の結果が得られることを示した。
関連論文リスト
- Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Certified Human Trajectory Prediction [66.1736456453465]
本稿では,ロバスト性を保証する軌道予測に適した認証手法を提案する。
そこで本研究では, 拡散型トラジェクトリデノイザを提案し, 本手法に組み込むことにより, 性能低下を緩和する。
認定された予測器の精度と堅牢性を実証し、認定されていない予測器に対するそれらの優位性を強調する。
論文 参考訳(メタデータ) (2024-03-20T17:41:35Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - Smooth-Trajectron++: Augmenting the Trajectron++ behaviour prediction
model with smooth attention [0.0]
本研究では,注目モジュールにスムーズな項を組み込んだトラジェクトリ予測モデルであるTrjectron++について検討する。
この注意機構は、注意切り替えの限界を示す認知科学の研究にインスパイアされた人間の注意を模倣する。
得られたSmooth-Trajectron++モデルの性能を評価し、様々なベンチマークで元のモデルと比較する。
論文 参考訳(メタデータ) (2023-05-31T09:19:55Z) - Evaluation of Differentially Constrained Motion Models for Graph-Based
Trajectory Prediction [1.1947990549568765]
本研究では,予測課題に対する数値解法と組み合わせた各種動作モデルの性能について検討する。
この研究は、低階積分子モデルのようなより単純なモデルは、正確な予測を達成するために、より複雑な、例えばキネマティックモデルよりも好まれることを示している。
論文 参考訳(メタデータ) (2023-04-11T10:15:20Z) - TransFollower: Long-Sequence Car-Following Trajectory Prediction through
Transformer [44.93030718234555]
本研究では,アテンションベーストランスフォーマーモデルに基づく自動車追従軌道予測モデルを提案する。
上海博物学運転研究会(SH-NDS)から抽出した実世界112,597台の乗用車追跡イベントを用いて、我々のモデルを訓練・試験する。
論文 参考訳(メタデータ) (2022-02-04T07:59:22Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - Learning to Predict Vehicle Trajectories with Model-based Planning [43.27767693429292]
PRIME(Prediction with Model-based Planning)という新しいフレームワークを紹介します。
ニューラルネットワークを使ってシーンコンテキストをモデル化する最近の予測作業とは異なり、PRIMEは正確で実現可能な将来の軌道予測を生成するように設計されている。
我々のPRIMEは、不完全追跡下での予測精度、実現可能性、堅牢性において最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-03-06T04:49:24Z) - Learning Accurate Long-term Dynamics for Model-based Reinforcement
Learning [7.194382512848327]
より長い地平線で安定的に予測するために, 状態作用データに対する教師付き学習のための新しいパラメータ化を提案する。
シミュレーションおよび実験によるロボット作業の結果,軌道に基づくモデルにより,より正確な長期予測が得られた。
論文 参考訳(メタデータ) (2020-12-16T18:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。