論文の概要: Efficient Multivariate Time Series Forecasting via Calibrated Language Models with Privileged Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2505.02138v1
- Date: Sun, 04 May 2025 14:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.445781
- Title: Efficient Multivariate Time Series Forecasting via Calibrated Language Models with Privileged Knowledge Distillation
- Title(参考訳): 予備知識蒸留を用いた校正言語モデルによる効率的な多変量時系列予測
- Authors: Chenxi Liu, Shaowen Zhou, Hao Miao, Qianxiong Xu, Cheng Long, Ziyue Li, Rui Zhao,
- Abstract要約: TimeKDは、提案したクロスモダリティ教師モデルから高品質な未来表現を生成することを目的としている。
効果的な学生モデルを構築するために,革新的特権的知識蒸留(PKD)機構を提案する。
- 参考スコア(独自算出の注目度): 24.980206999214552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multivariate time series forecasting (MTSF) endeavors to predict future observations given historical data, playing a crucial role in time series data management systems. With advancements in large language models (LLMs), recent studies employ textual prompt tuning to infuse the knowledge of LLMs into MTSF. However, the deployment of LLMs often suffers from low efficiency during the inference phase. To address this problem, we introduce TimeKD, an efficient MTSF framework that leverages the calibrated language models and privileged knowledge distillation. TimeKD aims to generate high-quality future representations from the proposed cross-modality teacher model and cultivate an effective student model. The cross-modality teacher model adopts calibrated language models (CLMs) with ground truth prompts, motivated by the paradigm of Learning Under Privileged Information (LUPI). In addition, we design a subtractive cross attention (SCA) mechanism to refine these representations. To cultivate an effective student model, we propose an innovative privileged knowledge distillation (PKD) mechanism including correlation and feature distillation. PKD enables the student to replicate the teacher's behavior while minimizing their output discrepancy. Extensive experiments on real data offer insight into the effectiveness, efficiency, and scalability of the proposed TimeKD.
- Abstract(参考訳): 多変量時系列予測(MTSF)は,時系列データ管理システムにおいて重要な役割を担っている。
大規模言語モデル(LLM)の進歩に伴い、最近の研究はテキスト・プロンプト・チューニングを用いてLLMの知識をMTSFに注入している。
しかし、LLMの展開は推論フェーズでしばしば低効率に悩まされる。
この問題に対処するために,校正言語モデルと特権知識蒸留を利用した効率的なMTSFフレームワークであるTimeKDを紹介する。
TimeKDは、提案したクロスモダリティ教師モデルから高品質な未来表現を生成し、効果的な学生モデルを構築することを目的としている。
クロスモダリティの教師モデルは、Learning Under Privileged Information (LUPI)のパラダイムによって動機付けられた、基礎的な真理的なプロンプトを持つ校正言語モデル(CLM)を採用する。
さらに、これらの表現を洗練させるために、サブトラクティブ・クロスアテンション(SCA)機構を設計する。
効果的な学生モデルを構築するために,相関と特徴蒸留を含む革新的特権的知識蒸留(PKD)機構を提案する。
PKDは、学生が出力の相違を最小限にしながら教師の行動を再現することを可能にする。
実データに関する大規模な実験は、提案されたTimeKDの有効性、効率、スケーラビリティに関する洞察を提供する。
関連論文リスト
- PTMs-TSCIL Pre-Trained Models Based Class-Incremental Learning [7.784244204592032]
時系列データのためのクラスインクリメンタルラーニング(CIL)は、新たな知識獲得のための破滅的な忘れと可塑性に対する安定性のバランスをとる上で、課題に直面している。
PTMを用いた時系列クラスインクリメンタルラーニング(TSCIL)の第1回研究について紹介する。
論文 参考訳(メタデータ) (2025-03-10T10:27:21Z) - FANformer: Improving Large Language Models Through Effective Periodicity Modeling [30.84203256282429]
本稿ではFANformerを紹介し,Fourier Analysis Network(FAN)をアテンション機構に統合し,効率的な周期性モデリングを実現する。
FANformerはモデルサイズのスケールアップやトークンのトレーニングにおいて,Transformerよりも一貫してパフォーマンスが向上している。
FANformerの有効性をさらに検証するため、FANformer-1Bを1兆個のトークンで事前訓練する。
論文 参考訳(メタデータ) (2025-02-28T18:52:24Z) - Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - An Attention Free Long Short-Term Memory for Time Series Forecasting [0.0]
本研究では,より効率的なフレームワークであるアテンションフリー機構を用いた時系列予測に着目し,時系列予測のための新しいアーキテクチャを提案する。
本研究では,無注意LSTM層を用いて,条件分散予測のための線形モデルを克服するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-09-20T08:23:49Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。