論文の概要: Learning to Factorize and Adapt: A Versatile Approach Toward Universal Spatio-Temporal Foundation Models
- arxiv url: http://arxiv.org/abs/2601.12083v1
- Date: Sat, 17 Jan 2026 15:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.455026
- Title: Learning to Factorize and Adapt: A Versatile Approach Toward Universal Spatio-Temporal Foundation Models
- Title(参考訳): ファクトライズと適応の学習: 普遍的時空間基盤モデルへの垂直的アプローチ
- Authors: Siru Zhong, Junjie Qiu, Yangyu Wu, Yiqiu Liu, Yuanpeng He, Zhongwen Rao, Bin Yang, Chenjuan Guo, Hao Xu, Yuxuan Liang,
- Abstract要約: FactoST-v2は時空間学習のための拡張された因子化フレームワークである。
FactoST-v2は線形効率で最先端の精度を実現する。
この分解パラダイムは、真に普遍的なSTFMへの実践的でスケーラブルなパスを提供する。
- 参考スコア(独自算出の注目度): 42.152122602443164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-Temporal (ST) Foundation Models (STFMs) promise cross-dataset generalization, yet joint ST pretraining is computationally expensive and grapples with the heterogeneity of domain-specific spatial patterns. Substantially extending our preliminary conference version, we present FactoST-v2, an enhanced factorized framework redesigned for full weight transfer and arbitrary-length generalization. FactoST-v2 decouples universal temporal learning from domain-specific spatial adaptation. The first stage pretrains a minimalist encoder-only backbone using randomized sequence masking to capture invariant temporal dynamics, enabling probabilistic quantile prediction across variable horizons. The second stage employs a streamlined adapter to rapidly inject spatial awareness via meta adaptive learning and prompting. Comprehensive evaluations across diverse domains demonstrate that FactoST-v2 achieves state-of-the-art accuracy with linear efficiency - significantly outperforming existing foundation models in zero-shot and few-shot scenarios while rivaling domain-specific expert baselines. This factorized paradigm offers a practical, scalable path toward truly universal STFMs. Code is available at https://github.com/CityMind-Lab/FactoST.
- Abstract(参考訳): Spatio-Temporal (STFM) Foundation Models (STFM) はクロスデータセットの一般化を約束するが、共同ST事前トレーニングは計算コストが高く、ドメイン固有の空間パターンの不均一性に対処する。
予備会議バージョンを拡張したFactoST-v2は、フルウェイト転送と任意の長さの一般化のために再設計された強化された因子化フレームワークである。
FactoST-v2は、ドメイン固有の空間適応から普遍的な時間学習を分離する。
第1段階は、ランダム化シーケンスマスキングを用いて最小限エンコーダのみのバックボーンを事前訓練し、不変時間ダイナミクスを捕捉し、可変地平線を越えた確率的量子予測を可能にする。
第2段階では、メタ適応学習とプロンプトを通じて空間認識を迅速に注入する合理化アダプタを採用している。
さまざまなドメインにわたる包括的な評価は、FactoST-v2が最先端の精度を線形効率で達成していることを示している。
この分解パラダイムは、真に普遍的なSTFMへの実践的でスケーラブルなパスを提供する。
コードはhttps://github.com/CityMind-Lab/FactoSTで入手できる。
関連論文リスト
- Enhancing Semantic Segmentation with Continual Self-Supervised Pre-training [11.897717409259492]
自己教師付き学習(SSL)は、基礎モデルをトレーニングするための中心的なパラダイムとして登場した。
GLAREは,下流セグメンテーション性能の向上を目的とした,新規な自己教師型事前学習タスクである。
論文 参考訳(メタデータ) (2025-09-22T14:11:02Z) - Feature-Space Planes Searcher: A Universal Domain Adaptation Framework for Interpretability and Computational Efficiency [7.889121135601528]
現在の教師なし領域適応法は微調整特徴抽出器に依存している。
領域適応フレームワークとしてFPS(Feature-space Planes Searcher)を提案する。
FPSは最先端の手法と比較して,競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-08-26T05:39:21Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - UTSD: Unified Time Series Diffusion Model [13.555837288440946]
多領域確率分布をモデル化するために、初めて統一時系列拡散モデルを確立する。
我々は、主要なベンチマークで広範な実験を行い、事前訓練されたUTSDは、すべてのデータドメインにおける既存の基礎モデルより優れています。
論文 参考訳(メタデータ) (2024-12-04T06:42:55Z) - UniMix: Towards Domain Adaptive and Generalizable LiDAR Semantic Segmentation in Adverse Weather [55.95708988160047]
LiDARセマンティックセグメンテーション(LSS)は自動運転において重要な課題である。
事前のLSS法は、晴れた天候下で同じ領域内のデータセットを調査・評価した。
LSSモデルの適応性と一般化性を高める普遍的手法UniMixを提案する。
論文 参考訳(メタデータ) (2024-04-08T02:02:15Z) - Test-Time Domain Generalization for Face Anti-Spoofing [60.94384914275116]
Face Anti-Spoofing (FAS) は、顔認識システムをプレゼンテーション攻撃から保護するために重要である。
本稿では,テストデータを活用してモデルの一般化性を高める新しいテスト時間領域一般化フレームワークについて紹介する。
テスト時間スタイル投影 (TTSP) とディバーススタイルシフトシミュレーション (DSSS) によって構成された本手法は, 目に見えないデータを領域空間に効果的に投影する。
論文 参考訳(メタデータ) (2024-03-28T11:50:23Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。