論文の概要: Context-Enhanced Multi-View Trajectory Representation Learning: Bridging the Gap through Self-Supervised Models
- arxiv url: http://arxiv.org/abs/2410.13196v2
- Date: Fri, 18 Oct 2024 08:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 10:25:41.675466
- Title: Context-Enhanced Multi-View Trajectory Representation Learning: Bridging the Gap through Self-Supervised Models
- Title(参考訳): コンテキスト強化多視点軌道表現学習:自己監督モデルによるギャップのブリッジ
- Authors: Tangwen Qian, Junhe Li, Yile Chen, Gao Cong, Tao Sun, Fei Wang, Yongjun Xu,
- Abstract要約: MVTrajは、軌道表現学習のための新しい多視点モデリング手法である。
GPSから道路網、関心点まで多様な文脈知識を統合し、軌跡データのより包括的な理解を提供する。
実世界のデータセットに対する大規模な実験により、MVTrajは様々な空間ビューに関連するタスクにおいて、既存のベースラインを大幅に上回っていることが示された。
- 参考スコア(独自算出の注目度): 27.316692263196277
- License:
- Abstract: Modeling trajectory data with generic-purpose dense representations has become a prevalent paradigm for various downstream applications, such as trajectory classification, travel time estimation and similarity computation. However, existing methods typically rely on trajectories from a single spatial view, limiting their ability to capture the rich contextual information that is crucial for gaining deeper insights into movement patterns across different geospatial contexts. To this end, we propose MVTraj, a novel multi-view modeling method for trajectory representation learning. MVTraj integrates diverse contextual knowledge, from GPS to road network and points-of-interest to provide a more comprehensive understanding of trajectory data. To align the learning process across multiple views, we utilize GPS trajectories as a bridge and employ self-supervised pretext tasks to capture and distinguish movement patterns across different spatial views. Following this, we treat trajectories from different views as distinct modalities and apply a hierarchical cross-modal interaction module to fuse the representations, thereby enriching the knowledge derived from multiple sources. Extensive experiments on real-world datasets demonstrate that MVTraj significantly outperforms existing baselines in tasks associated with various spatial views, validating its effectiveness and practical utility in spatio-temporal modeling.
- Abstract(参考訳): 汎用的な高密度表現を用いた軌道データのモデリングは、軌道分類、走行時間推定、類似性計算など、様々な下流アプリケーションにおいて一般的なパラダイムとなっている。
しかし、既存の手法は、通常、単一の空間的視点からの軌跡に依存しており、異なる地理空間的文脈にわたる運動パターンの深い洞察を得るために重要なリッチな文脈情報を取得する能力を制限する。
そこで本稿では,軌道表現学習のための新しい多視点モデリング手法であるMVTrajを提案する。
MVTrajは、GPSから道路網、関心点まで多様なコンテキスト知識を統合し、軌跡データのより包括的な理解を提供する。
複数のビューにまたがる学習プロセスの整合を図るために,GPSトラジェクトリをブリッジとして利用し,自己教師付きプレテキストタスクを用いて,異なる空間ビュー間での移動パターンの捕捉と識別を行う。
次に、異なる視点からの軌跡を異なるモダリティとして扱い、階層的な相互モーダル相互作用モジュールを用いて表現を融合させ、複数の情報源から得られる知識を豊かにする。
実世界のデータセットに対する大規模な実験により、MVTrajは様々な空間ビューに関連するタスクにおいて既存のベースラインを著しく上回り、時空間モデリングにおけるその有効性と実用性を検証した。
関連論文リスト
- Trajectory Representation Learning on Road Networks and Grids with Spatio-Temporal Dynamics [0.8655526882770742]
軌道表現学習は、スマートシティや都市計画など分野の応用における基本的な課題である。
本稿では,時間的ダイナミクスを取り入れつつ,グリッドと道路ネットワークのモダリティを統合する新しいモデルであるTIGRを提案する。
実世界の2つのデータセット上でTIGRを評価し,両モードの組み合わせの有効性を実証した。
論文 参考訳(メタデータ) (2024-11-21T10:56:02Z) - T-JEPA: A Joint-Embedding Predictive Architecture for Trajectory Similarity Computation [6.844357745770191]
軌道類似性計算は,様々なアプリケーション間での空間データの移動パターンを解析するための重要な手法である。
本稿では,JEPA(Joint-Embedding Predictive Architecture)を用いた自己教師付き軌道類似性手法T-JEPAを提案する。
論文 参考訳(メタデータ) (2024-06-13T09:51:51Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - More Than Routing: Joint GPS and Route Modeling for Refine Trajectory
Representation Learning [26.630640299709114]
本稿では,JGRMという自己監督技術に基づく共同GPSとルートモデリングを提案する。
我々は2つのエンコーダを開発し、それぞれルートとGPSの軌跡を表現できるように調整した。
2つのモードからの表現は、モーダル間情報相互作用のための共有変換器に入力される。
論文 参考訳(メタデータ) (2024-02-25T18:27:25Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - DouFu: A Double Fusion Joint Learning Method For Driving Trajectory
Representation [13.321587117066166]
軌道表現型共同学習のための新しい多モード融合モデルDouFuを提案する。
まず、軌道データと都市機能ゾーンから生成された動き、経路、グローバルな特徴を設計する。
グローバルなセマンティック機能により、DouFuは各行に対して包括的な埋め込みを生成する。
論文 参考訳(メタデータ) (2022-05-05T07:43:35Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。