論文の概要: S^2-KD: Semantic-Spectral Knowledge Distillation Spatiotemporal Forecasting
- arxiv url: http://arxiv.org/abs/2512.00366v1
- Date: Sat, 29 Nov 2025 07:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.197329
- Title: S^2-KD: Semantic-Spectral Knowledge Distillation Spatiotemporal Forecasting
- Title(参考訳): S^2-KD:意味スペクトル知識蒸留時空間予測
- Authors: Wenshuo Wang, Yaomin Shen, Yingjie Tan, Yihao Chen,
- Abstract要約: 蒸留のためのスペクトル表現とセマンティック先行を統一する新しいフレームワークであるS2-KDを紹介する。
その結果,S2-KDは学生モデルの性能を大幅に向上させ,最先端の手法よりも優れることを示した。
- 参考スコア(独自算出の注目度): 7.215220136010697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatiotemporal forecasting often relies on computationally intensive models to capture complex dynamics. Knowledge distillation (KD) has emerged as a key technique for creating lightweight student models, with recent advances like frequency-aware KD successfully preserving spectral properties (i.e., high-frequency details and low-frequency trends). However, these methods are fundamentally constrained by operating on pixel-level signals, leaving them blind to the rich semantic and causal context behind the visual patterns. To overcome this limitation, we introduce S^2-KD, a novel framework that unifies Semantic priors with Spectral representations for distillation. Our approach begins by training a privileged, multimodal teacher model. This teacher leverages textual narratives from a Large Multimodal Model (LMM) to reason about the underlying causes of events, while its architecture simultaneously decouples spectral components in its latent space. The core of our framework is a new distillation objective that transfers this unified semantic-spectral knowledge into a lightweight, vision-only student. Consequently, the student learns to make predictions that are not only spectrally accurate but also semantically coherent, without requiring any textual input or architectural overhead at inference. Extensive experiments on benchmarks like WeatherBench and TaxiBJ+ show that S^2-KD significantly boosts the performance of simple student models, enabling them to outperform state-of-the-art methods, particularly in long-horizon and complex non-stationary scenarios.
- Abstract(参考訳): 時空間予測は複雑な力学を捉えるために計算集約的なモデルに依存することが多い。
知識蒸留(KD)は、周波数認識型KDのような近年の進歩により、スペクトル特性(高周波の詳細や低周波傾向)の保存に成功している。
しかし、これらの手法はピクセルレベルの信号を操作することで根本的な制約を受けており、視覚パターンの背後にあるリッチな意味と因果関係に盲目である。
この制限を克服するために、蒸留のためのスペクトル表現とセマンティック先行を統一する新しいフレームワークであるS^2-KDを導入する。
私たちのアプローチは、特権付きマルチモーダル教師モデルのトレーニングから始まります。
この教師は、LMM(Large Multimodal Model)のテキスト物語を利用して、イベントの根本原因を推論し、そのアーキテクチャは潜在空間のスペクトル成分を同時に分離する。
我々のフレームワークの中核は、この統合された意味スペクトルの知識を軽量で視覚のみの学生に伝達する新しい蒸留目標である。
その結果、学生は、スペクトル的に正確であるだけでなく、意味的に一貫性のある予測を、推論時にテキスト入力やアーキテクチャ上のオーバーヘッドを必要とせずに行うことを学ぶ。
WeatherBench や TaxiBJ+ のようなベンチマークの大規模な実験により、S^2-KD は単純な学生モデルの性能を大幅に向上させ、特に長距離および複雑な非定常シナリオにおいて、最先端の手法よりも優れた性能を発揮することが示されている。
関連論文リスト
- Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding [56.7383554589569]
人間のような知性には長いビデオ理解が不可欠であり、時間的文脈を超越したコヒーレントな認識と推論を可能にする。
強化学習に基づく投機的時間的推論フレームワークであるSpecTempを提案する。
我々はSpecTempが競争精度を維持するだけでなく、既存の思考とフレームの手法と比較して推論を著しく加速することを示した。
論文 参考訳(メタデータ) (2025-11-30T09:27:59Z) - Learning Time in Static Classifiers [44.358377952850994]
本稿では,標準フィードフォワード分類器と時間的推論を併用した,シンプルで効果的なフレームワークを提案する。
本稿では, 時間的コヒーレントなトラジェクトリに学習データを構造化するSEQ学習パラダイムを提案する。
我々のアプローチは静的および時間的学習をモジュール的でデータ効率のよい方法でブリッジし、事前抽出された機能の上に単純なものだけを必要とする。
論文 参考訳(メタデータ) (2025-11-15T18:42:51Z) - Frequency-Aligned Knowledge Distillation for Lightweight Spatiotemporal Forecasting [37.00869900861736]
本稿では、複雑な教師モデルからより効率的な軽量学生ネットワークへマルチスケール表現を転送するフレームワーク、Spectral Decoupled Knowledge Distillation (Termed SDKD)を提案する。
このフレームワークは、計算複雑性を低減しつつ、高周波変動と長期トレンドの両方を効果的にキャプチャする。
論文 参考訳(メタデータ) (2025-06-27T14:24:37Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Long-horizon video prediction using a dynamic latent hierarchy [1.2891210250935146]
遅延状態の階層としてビデオを表現する潜在モデルである動的遅延(DLH)を紹介する。
DLHはその階層をまたいで表現を歪めることを学ぶ。
ビデオ予測において,DLHが最先端のベンチマークより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-29T17:19:28Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - A Frequency Perspective of Adversarial Robustness [72.48178241090149]
理論的および経験的知見を参考に,周波数に基づく対向例の理解について述べる。
分析の結果,逆転例は高周波でも低周波成分でもないが,単にデータセット依存であることがわかった。
本稿では、一般に観測される精度対ロバスト性トレードオフの周波数に基づく説明法を提案する。
論文 参考訳(メタデータ) (2021-10-26T19:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。