論文の概要: TrajSceneLLM: A Multimodal Perspective on Semantic GPS Trajectory Analysis
- arxiv url: http://arxiv.org/abs/2506.16401v1
- Date: Thu, 19 Jun 2025 15:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.139457
- Title: TrajSceneLLM: A Multimodal Perspective on Semantic GPS Trajectory Analysis
- Title(参考訳): TrajSceneLLM:セマンティックGPS軌道解析におけるマルチモーダル視点
- Authors: Chunhou Ji, Qiumeng Li,
- Abstract要約: 我々は,GPSトラジェクトリのセマンティック理解を強化するためのマルチモーダル視点であるTrajSceneLLMを提案する。
本稿では,旅行選択を分析し,移動行動を理解する上で重要な課題である旅行モード識別(TMI)の枠組みを検証した。
このセマンティックエンハンスメントは、さまざまな下流のアプリケーションや、人工知能の将来の研究に有意義な可能性を約束する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPS trajectory data reveals valuable patterns of human mobility and urban dynamics, supporting a variety of spatial applications. However, traditional methods often struggle to extract deep semantic representations and incorporate contextual map information. We propose TrajSceneLLM, a multimodal perspective for enhancing semantic understanding of GPS trajectories. The framework integrates visualized map images (encoding spatial context) and textual descriptions generated through LLM reasoning (capturing temporal sequences and movement dynamics). Separate embeddings are generated for each modality and then concatenated to produce trajectory scene embeddings with rich semantic content which are further paired with a simple MLP classifier. We validate the proposed framework on Travel Mode Identification (TMI), a critical task for analyzing travel choices and understanding mobility behavior. Our experiments show that these embeddings achieve significant performance improvement, highlighting the advantage of our LLM-driven method in capturing deep spatio-temporal dependencies and reducing reliance on handcrafted features. This semantic enhancement promises significant potential for diverse downstream applications and future research in geospatial artificial intelligence. The source code and dataset are publicly available at: https://github.com/februarysea/TrajSceneLLM.
- Abstract(参考訳): GPS軌道データは、人間の移動と都市動態の貴重なパターンを明らかにし、様々な空間的応用をサポートする。
しかし、伝統的な手法は、深い意味表現を抽出し、文脈マップ情報を組み込むのに苦労することが多い。
我々は,GPSトラジェクトリのセマンティック理解を強化するためのマルチモーダル視点であるTrajSceneLLMを提案する。
このフレームワークは、可視化された地図画像(空間コンテキストのエンコード)とLLM推論(時間的シーケンスと運動ダイナミクスのキャプチャ)によって生成されたテキスト記述を統合する。
個別の埋め込みは各モードごとに生成され、さらに単純なMLP分類器と組み合わせたリッチなセマンティックコンテンツを持つ軌跡シーン埋め込みを生成する。
本稿では,旅行選択を分析し,移動行動を理解する上で重要な課題である旅行モード識別(TMI)の枠組みを検証した。
実験により,これらの埋め込みは高い性能向上を実現し,LLM駆動方式による深部時空間依存性の捕捉と手作り機能への依存の低減を図った。
このセマンティックエンハンスメントは、下流の多様な応用と地理空間人工知能における将来の研究に有意義な可能性を約束する。
ソースコードとデータセットは、https://github.com/februarysea/TrajSceneLLM.comで公開されている。
関連論文リスト
- TrajLearn: Trajectory Prediction Learning using Deep Generative Models [4.097342535693401]
軌道予測は、現在位置と過去の動きデータを用いて、ある物体の将来の進路を推定することを目的としている。
これらの課題に対処するために,軌道予測の新しいモデルであるTrajLearnを紹介する。
TrajLearnは、複数の潜在的パスを探索するためにカスタマイズされたビーム検索を統合することで、次の$k$ステップを予測する。
論文 参考訳(メタデータ) (2024-12-30T23:38:52Z) - Context-Enhanced Multi-View Trajectory Representation Learning: Bridging the Gap through Self-Supervised Models [27.316692263196277]
MVTrajは、軌道表現学習のための新しい多視点モデリング手法である。
GPSから道路網、関心点まで多様な文脈知識を統合し、軌跡データのより包括的な理解を提供する。
実世界のデータセットに対する大規模な実験により、MVTrajは様々な空間ビューに関連するタスクにおいて、既存のベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-10-17T03:56:12Z) - Deciphering Human Mobility: Inferring Semantics of Trajectories with Large Language Models [10.841035090991651]
本稿では,ユーザの職業カテゴリー,活動,シーケンス,軌道記述の3つの重要な側面を通じて意味推論を定義する。
本稿では,トラジェクトリデータのセマンティック分析を活用するために,大規模言語モデルを用いたトラジェクトリ意味推論(TSI-LLM)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T08:55:48Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。