論文の概要: OmniTraj: Pre-Training on Heterogeneous Data for Adaptive and Zero-Shot Human Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2507.23657v1
- Date: Thu, 31 Jul 2025 15:37:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.034792
- Title: OmniTraj: Pre-Training on Heterogeneous Data for Adaptive and Zero-Shot Human Trajectory Prediction
- Title(参考訳): OmniTraj:適応的かつゼロショットな人的軌道予測のための異種データの事前学習
- Authors: Yang Gao, Po-Chien Luan, Kaouther Messaoud, Lan Feng, Alexandre Alahi,
- Abstract要約: OmniTrajは、大規模な異種データセットで事前トレーニングされたトランスフォーマーベースのモデルである。
実験によると、フレームレートを明示的に条件付けすることで、OmniTrajは最先端のゼロショット転送性能を実現することができる。
- 参考スコア(独自算出の注目度): 62.385417528148224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large-scale pre-training has advanced human trajectory prediction, a critical challenge remains: zero-shot transfer to unseen dataset with varying temporal dynamics. State-of-the-art pre-trained models often require fine-tuning to adapt to new datasets with different frame rates or observation horizons, limiting their scalability and practical utility. In this work, we systematically investigate this limitation and propose a robust solution. We first demonstrate that existing data-aware discrete models struggle when transferred to new scenarios with shifted temporal setups. We then isolate the temporal generalization from dataset shift, revealing that a simple, explicit conditioning mechanism for temporal metadata is a highly effective solution. Based on this insight, we present OmniTraj, a Transformer-based model pre-trained on a large-scale, heterogeneous dataset. Our experiments show that explicitly conditioning on the frame rate enables OmniTraj to achieve state-of-the-art zero-shot transfer performance, reducing prediction error by over 70\% in challenging cross-setup scenarios. After fine-tuning, OmniTraj achieves state-of-the-art results on four datasets, including NBA, JTA, WorldPose, and ETH-UCY. The code is publicly available: https://github.com/vita-epfl/omnitraj
- Abstract(参考訳): 大規模な事前トレーニングでは、人間の軌道予測が進んでいるが、重要な課題が残っている。
最先端の事前訓練モデルでは、フレームレートや観測地平線が異なる新しいデータセットに適応するために微調整が必要な場合が多く、スケーラビリティと実用性は制限される。
本研究では,この制限を体系的に検討し,ロバストな解を提案する。
まず、既存のデータ認識離散モデルが、時間的にシフトした新しいシナリオに移行する際に苦労していることを実証する。
次に、データセットシフトから時間的一般化を分離し、時間的メタデータに対する単純で明示的な条件付け機構が極めて効果的な解であることを明らかにする。
この知見に基づいて、大規模な異種データセットで事前トレーニングされたTransformerベースのモデルであるOmniTrajを紹介する。
実験の結果,フレームレートを明示的に条件付けすることにより,OmniTrajは最先端のゼロショット転送性能を実現し,クロスセットシナリオにおいて予測誤差を70倍以上削減できることがわかった。
微調整の後、OmniTrajはNBA、JTA、WorldPose、ETH-UCYを含む4つのデータセットで最先端の結果を達成する。
コードは https://github.com/vita-epfl/omnitraj で公開されている。
関連論文リスト
- Unified Human Localization and Trajectory Prediction with Monocular Vision [64.19384064365431]
MonoTransmotionはトランスフォーマーベースのフレームワークで、モノクロカメラのみを使用して、ローカライゼーションと予測タスクを共同で解決する。
両タスクを統合フレームワークで共同でトレーニングすることにより,ノイズの多い入力による実環境シナリオにおいて,我々の手法がより堅牢であることを示す。
論文 参考訳(メタデータ) (2025-03-05T14:18:39Z) - ASTRA: A Scene-aware TRAnsformer-based model for trajectory prediction [15.624698974735654]
ASTRA (A Scene-aware TRAnsformer based model for trajectory prediction) は軽量な歩行者軌道予測モデルである。
我々は、U-Netベースの特徴抽出器を用いて、その潜在ベクトル表現を用いて、シーン表現をキャプチャし、グラフ対応トランスフォーマーエンコーダを用いて、ソーシャルインタラクションをキャプチャする。
論文 参考訳(メタデータ) (2025-01-16T23:28:30Z) - Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文 参考訳(メタデータ) (2024-11-04T23:15:21Z) - DaFoEs: Mixing Datasets towards the generalization of vision-state
deep-learning Force Estimation in Minimally Invasive Robotic Surgery [6.55111164866752]
深部神経モデルのトレーニングを行うために,様々なソフト環境を持つ新しい視覚触覚データセット(DaFoEs)を提案する。
また,単一入力や入力シーケンスを用いて腹腔鏡ツールが行う力を予測するための可変エンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-17T14:39:55Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Scalable Scene Flow from Point Clouds in the Real World [30.437100097997245]
オープンデータセットに基づくシーンフローの大規模ベンチマークを新たに導入します。
実際のLiDARデータの量に基づいて、これまでの作業がバウンドされているかを示す。
フルポイントクラウド上でリアルタイム推論を提供するモデルアーキテクチャFastFlow3Dを紹介します。
論文 参考訳(メタデータ) (2021-03-01T20:56:05Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。