論文の概要: Temporal Sampling Frequency Matters: A Capacity-Aware Study of End-to-End Driving Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2605.10388v1
- Date: Mon, 11 May 2026 11:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.769107
- Title: Temporal Sampling Frequency Matters: A Capacity-Aware Study of End-to-End Driving Trajectory Prediction
- Title(参考訳): 時間サンプリング周波数問題:エンド・ツー・エンド駆動軌道予測のキャパシティ・アウェアによる検討
- Authors: Yumao Liu, Tao Liu, Xiangyu Li, Jiaxiang Li, Ke Ma,
- Abstract要約: エンド・ツー・エンド(E2E)の自律走行軌道予測は、しばしば最高時間周波数でサンプリングされたカメラフレームで訓練される。
時間サンプリング周波数を明示的なトレーニングセット設計変数として扱うことにより、この仮定を疑問視する。
各モデルデータセットペアに対して、固定されたプロトコルの下で同じモデルをトレーニングし、評価するので、周波数応答はサンプリング周波数による予測性能の変化を反映する。
- 参考スコア(独自算出の注目度): 7.358157927566997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End to end (E2E) autonomous driving trajectory prediction is often trained with camera frames sampled at the highest available temporal frequency, assuming that denser sampling improves performance. We question this assumption by treating temporal sampling frequency as an explicit training set design variable. Starting from high frequency E2E driving datasets, we construct frequency sweep training sets by temporally subsampling camera frames along each trajectory. For each model dataset pair, we train and evaluate the same model under a fixed protocol, so the frequency response reflects how prediction performance changes with sampling frequency. We analyze this response from a capacity aware perspective. Sparse sampling may miss driving relevant cues, while dense sampling may add redundant visual content and off manifold noise. For finite capacity models, this can create a driving irrelevant capacity burden. We evaluate three smaller E2E models and a larger VLA style AutoVLA model on Waymo, nuScenes, and PAVE. Results show model and dataset dependent frequency responses. Smaller E2E models often show non monotonic or near plateau trends and achieve their best 3 second ADE at lower or intermediate frequencies. In contrast, AutoVLA achieves its best 3 second ADE and FDE at the highest evaluated frequency on all three datasets. Iteration matched controls suggest that the advantage of lower or intermediate frequencies for smaller models is not explained only by unequal training update counts. These findings show that temporal sampling frequency should be reported and tuned, rather than fixed to the highest available value.
- Abstract(参考訳): エンド・ツー・エンド(E2E)の自律走行軌道予測は、高密度サンプリングにより性能が向上すると仮定して、最高時間周波数でサンプリングされたカメラフレームでしばしば訓練される。
時間サンプリング周波数を明示的なトレーニングセット設計変数として扱うことにより、この仮定を疑問視する。
高周波E2E駆動データセットから、各軌道に沿ってカメラフレームを時間的にサブサンプリングすることで、周波数スイープ訓練セットを構築する。
各モデルデータセットペアに対して、固定されたプロトコルの下で同じモデルをトレーニングし、評価するので、周波数応答はサンプリング周波数による予測性能の変化を反映する。
我々はこの応答をキャパシティ・アウェアネスの観点から分析する。
スパースサンプリングは関連する手がかりを見逃しかねないが、高密度サンプリングは冗長な視覚的内容とオフ多様体ノイズを付加する可能性がある。
有限容量モデルの場合、これは無関係なキャパシティ負荷を引き起こす可能性がある。
Waymo, nuScenes, PAVEの3つの小型E2Eモデルと大型VLAスタイルのAutoVLAモデルを評価した。
結果はモデルとデータセット依存周波数応答を示す。
より小さなE2Eモデルは、非単調または近高原の傾向を示し、低い周波数または中間周波数で最高の3秒ADEを達成する。
対照的にAutoVLAは、3つのデータセットで最高評価周波数で3秒のADEとFDEを達成している。
反復整合制御は、より小さなモデルの低周波または中間周波の利点が不平等なトレーニング更新数によってのみ説明されないことを示唆している。
これらの結果から,時間的サンプリング頻度は,最も高い値に固定されるのではなく,報告・調整されるべきであることが示唆された。
関連論文リスト
- FreqMoE: Enhancing Time Series Forecasting through Frequency Decomposition Mixture of Experts [14.01018670507771]
本稿では,時系列データを周波数帯域に分解する周波数分解混合(FreqMoE)モデルを提案する。
ゲーティング機構は、周波数特性に基づいて専門家の各出力の重要度を調整する。
FreqMoEは最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2025-01-25T08:25:52Z) - Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts [103.725112190618]
本稿では,単一入出力プロジェクション層を用いたMoirai-MoEを紹介するとともに,多種多様な時系列パターンのモデリングを専門家の疎結合に委ねる。
39のデータセットに対する大規模な実験は、既存の基盤モデルよりも、分配シナリオとゼロショットシナリオの両方において、Moirai-MoEの優位性を実証している。
論文 参考訳(メタデータ) (2024-10-14T13:01:11Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - F3-Pruning: A Training-Free and Generalized Pruning Strategy towards
Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。
本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。
古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-06T12:34:47Z) - GC-GRU-N for Traffic Prediction using Loop Detector Data [5.735035463793008]
シアトルのループ検出器のデータを15分以上収集し、その問題を時空で再現する。
モデルは、最速の推論時間と非常に近いパフォーマンスで第2位(トランスフォーマー)。
論文 参考訳(メタデータ) (2022-11-13T06:32:28Z) - FreDo: Frequency Domain-based Long-Term Time Series Forecasting [12.268979675200779]
誤差の蓄積により,高度なモデルでは,長期予測のベースラインモデルを上回る結果が得られない可能性が示唆された。
本稿では,ベースラインモデル上に構築された周波数領域に基づくニューラルネットワークモデルFreDoを提案する。
論文 参考訳(メタデータ) (2022-05-24T18:19:15Z) - An Empirical Experiment on Deep Learning Models for Predicting Traffic
Data [18.103216508546645]
交通制御領域における意思決定者を支援するためのディープラーニングモデルが提案されている。
どのモデルが最先端のパフォーマンスを提供するのかを理解することは困難です。
交通状況が急変した場合、どのモデルが動作するかを決定することも困難である。
論文 参考訳(メタデータ) (2021-05-12T08:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。