論文の概要: DONUT: A Decoder-Only Model for Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2506.06854v1
- Date: Sat, 07 Jun 2025 16:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.531405
- Title: DONUT: A Decoder-Only Model for Trajectory Prediction
- Title(参考訳): DONUT:軌道予測のためのデコーダ専用モデル
- Authors: Markus Knoche, Daan de Geus, Bastian Leibe,
- Abstract要約: トラジェクトリをアンロールするデコーダオンリーネットワークであるDONUTを提案する。
我々は、過去の軌跡を符号化し、単一の自己回帰モデルで将来の軌跡を予測する。
実験により、デコーダのみのアプローチがエンコーダ-デコーダベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 12.89335607622991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting the motion of other agents in a scene is highly relevant for autonomous driving, as it allows a self-driving car to anticipate. Inspired by the success of decoder-only models for language modeling, we propose DONUT, a Decoder-Only Network for Unrolling Trajectories. Different from existing encoder-decoder forecasting models, we encode historical trajectories and predict future trajectories with a single autoregressive model. This allows the model to make iterative predictions in a consistent manner, and ensures that the model is always provided with up-to-date information, enhancing the performance. Furthermore, inspired by multi-token prediction for language modeling, we introduce an 'overprediction' strategy that gives the network the auxiliary task of predicting trajectories at longer temporal horizons. This allows the model to better anticipate the future, and further improves the performance. With experiments, we demonstrate that our decoder-only approach outperforms the encoder-decoder baseline, and achieves new state-of-the-art results on the Argoverse 2 single-agent motion forecasting benchmark.
- Abstract(参考訳): シーン内の他のエージェントの動きを予測することは、自動運転車が予測できるため、自動運転に非常に関係している。
言語モデリングにおけるデコーダのみのモデルの成功に触発されて,DONUTを提案する。
既存のエンコーダ・デコーダ予測モデルとは異なり、過去の軌跡を符号化し、単一の自己回帰モデルで将来の軌跡を予測する。
これにより、モデルは一貫した方法で反復予測を行うことができ、常に最新の情報を提供し、性能を高めることができる。
さらに、言語モデリングのマルチトークン予測にインスパイアされ、より長い時間的地平線で軌道を予測する補助的なタスクをネットワークに提供する「過剰予測」戦略を導入する。
これにより、モデルが将来をより期待でき、パフォーマンスがさらに向上します。
実験により、デコーダのみのアプローチがエンコーダ-デコーダベースラインより優れており、Argoverse 2単エージェントモーション予測ベンチマークで新しい最先端結果が得られることを示した。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Certified Human Trajectory Prediction [66.1736456453465]
本稿では,ロバスト性を保証する軌道予測に適した認証手法を提案する。
そこで本研究では, 拡散型トラジェクトリデノイザを提案し, 本手法に組み込むことにより, 性能低下を緩和する。
認定された予測器の精度と堅牢性を実証し、認定されていない予測器に対するそれらの優位性を強調する。
論文 参考訳(メタデータ) (2024-03-20T17:41:35Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - Smooth-Trajectron++: Augmenting the Trajectron++ behaviour prediction
model with smooth attention [0.0]
本研究では,注目モジュールにスムーズな項を組み込んだトラジェクトリ予測モデルであるTrjectron++について検討する。
この注意機構は、注意切り替えの限界を示す認知科学の研究にインスパイアされた人間の注意を模倣する。
得られたSmooth-Trajectron++モデルの性能を評価し、様々なベンチマークで元のモデルと比較する。
論文 参考訳(メタデータ) (2023-05-31T09:19:55Z) - Evaluation of Differentially Constrained Motion Models for Graph-Based
Trajectory Prediction [1.1947990549568765]
本研究では,予測課題に対する数値解法と組み合わせた各種動作モデルの性能について検討する。
この研究は、低階積分子モデルのようなより単純なモデルは、正確な予測を達成するために、より複雑な、例えばキネマティックモデルよりも好まれることを示している。
論文 参考訳(メタデータ) (2023-04-11T10:15:20Z) - TransFollower: Long-Sequence Car-Following Trajectory Prediction through
Transformer [44.93030718234555]
本研究では,アテンションベーストランスフォーマーモデルに基づく自動車追従軌道予測モデルを提案する。
上海博物学運転研究会(SH-NDS)から抽出した実世界112,597台の乗用車追跡イベントを用いて、我々のモデルを訓練・試験する。
論文 参考訳(メタデータ) (2022-02-04T07:59:22Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。