論文の概要: TrajTok: Adaptive Spatial Tokenization for Trajectory Representation Learning
- arxiv url: http://arxiv.org/abs/2605.20134v1
- Date: Tue, 19 May 2026 17:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.552597
- Title: TrajTok: Adaptive Spatial Tokenization for Trajectory Representation Learning
- Title(参考訳): TrajTok: 軌道表現学習のための適応的空間トークン化
- Authors: Zhen Xiong, Shang-Ling Hsu, Cyrus Shahabi,
- Abstract要約: 移動可能な軌道埋め込みのための簡単な事前学習レシピを備えた軌道エンコーダであるTrajTokを提案する。
TrajTokはまず、GPSポイントの空間分布から多分解能六角形細胞分割を学習し、ノイズの多いGPSシーケンスを個別のセルトークンに変換する。
部分軌道観測から幾何構造と運動パターンの両方を復元するマスク・トケン・モデリングで事前訓練されている。
- 参考スコア(独自算出の注目度): 14.04282604310535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning generalizable trajectory representations from raw GPS traces remains difficult because the data is continuous, noisy, and irregularly sampled. Spatial tokenization is also challenging: fine grids yield sparse cells with weak embeddings, while coarse grids merge heterogeneous movement patterns into the same token. We present TrajTok, a trajectory encoder with a simple pretraining recipe for transferable trajectory embeddings. TrajTok first learns a multi-resolution hexagonal cell partition from the spatial distribution of GPS points, converting noisy GPS sequences into discrete cell tokens. To capture both geometry and kinematics, it uses a factorized transformer encoder with early per-modality self-attention blocks, cross-attention fusion layers, and spatiotemporal rotary position embeddings, ST-RoPE, to encode where and when each token occurs. TrajTok is pretrained with masked-token modeling that recovers both geometric structure and kinematic patterns from partial trajectory observations. On the Porto dataset, a frozen TrajTok encoder with lightweight task adapters achieves strong performance across trajectory similarity search, classification, estimated time of arrival, and full travel-time regression, outperforming multiple task-specific methods. The same frozen encoder supports both geometry-dominated and kinematics-dominated tasks, suggesting that TrajTok learns transferable trajectory structure rather than task-specific shortcuts. These results indicate that learned multi-resolution spatial tokenization combined with masked-token pretraining is a promising direction for general-purpose trajectory foundation models.
- Abstract(参考訳): データの連続性、ノイズ、不規則なサンプリングのため、生のGPSトレースから一般化可能な軌道表現を学習することは依然として困難である。
細い格子は弱い埋め込みを持つスパース細胞を産み出す一方、粗い格子は異質な運動パターンを同じトークンにマージする。
移動可能な軌道埋め込みのための簡単な事前学習レシピを備えた軌道エンコーダであるTrajTokを提案する。
TrajTokはまず、GPSポイントの空間分布から多分解能六角形細胞分割を学習し、ノイズの多いGPSシーケンスを個別のセルトークンに変換する。
幾何とキネマティクスの両方を捉えるために、初期モード毎の自己アテンションブロック、相互アテンション融合層、時空間回転位置埋め込み(ST-RoPE)を備えた分解変換器エンコーダを使用して、各トークンの発生場所と発生時刻をエンコードする。
TrajTokは、部分軌道観測から幾何学構造と運動パターンの両方を復元するマスクトケンモデリングで事前訓練されている。
Portoデータセットでは、軽量なタスクアダプタを備えたフリーズされたTrajTokエンコーダが、軌道類似性検索、分類、到着推定時間、フルトラベルタイムレグレッションなど、複数のタスク固有の手法よりも優れたパフォーマンスを実現している。
同じ凍結エンコーダは幾何支配タスクとキネマティクス支配タスクの両方をサポートしており、TrajTokはタスク固有のショートカットよりも伝達可能な軌道構造を学ぶことを示唆している。
これらの結果は,学習した多次元空間トークン化とマスクトケン事前学習が,汎用軌道基礎モデルにとって有望な方向であることを示唆している。
関連論文リスト
- Collision-Free Velocity Scheduling for Multi-Agent Systems on Predefined Routes via Inexact-Projection ADMM [0.0]
構造化マルチエージェントプロジェクトでは、エージェントは事前に定義されたルートをたどらなければならず、リルーチンや不可能となる。
本稿では,各エージェントの割り当てられた経路の順序と名前付き経路の割り当てを保ちながら,経路制約付きマルチエージェント協調に対処する。
論文 参考訳(メタデータ) (2026-03-23T12:34:18Z) - Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。
既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。
本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文 参考訳(メタデータ) (2026-03-04T11:38:12Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - Self-supervised Trajectory Representation Learning with Temporal
Regularities and Travel Semantics [30.9735101687326]
Trajectory Representation Learning (TRL) は空間時間データ分析と管理のための強力なツールである。
既存のTRLの作業は通常、トラジェクトリを通常のシーケンスデータとして扱うが、時間的規則性や旅行意味論といった重要な時空間特性は、完全には利用されない。
本稿では,TemporAl規則と旅行意味論,すなわちSTARTを用いた自己教師付き軌道表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-17T13:14:47Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z) - An Information-Geometric Distance on the Space of Tasks [31.359578768463752]
本稿では,データとラベルの共分散としてモデル化された学習課題間の距離を規定する。
そこで,本研究では,対象タスクのデータに対する残差を反復的に伝達する距離を計算するアルゴリズムを開発した。
様々な画像分類データセットに対して徹底的な実証検証と解析を行い、結合転送距離が微調整の難しさと強く相関していることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。