論文の概要: Understanding Token-level Topological Structures in Transformer-based Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2404.10337v4
- Date: Fri, 24 Oct 2025 08:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.703368
- Title: Understanding Token-level Topological Structures in Transformer-based Time Series Forecasting
- Title(参考訳): 変圧器を用いた時系列予測におけるトークンレベルのトポロジ構造理解
- Authors: Jianqi Zhang, Wenwen Qiang, Jingyao Wang, Jiahuan Zhou, Changwen Zheng, Hui Xiong,
- Abstract要約: Transformer-based method has achieved state-of-the-art performance in time series forecasting (TSF)
既存のトランスフォーマーが中間層全体を通してトークン間の固有位相構造を完全に活用しているかどうかは不明である。
トークンレベルのトポロジを明示的にかつ適応的に保存するトランスフォーマーベースの新しいTSF手法であるトポロジ拡張法(TEM)を提案する。
- 参考スコア(独自算出の注目度): 52.364260925700485
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer-based methods have achieved state-of-the-art performance in time series forecasting (TSF) by capturing positional and semantic topological relationships among input tokens. However, it remains unclear whether existing Transformers fully leverage the intrinsic topological structure among tokens throughout intermediate layers. Through empirical and theoretical analyses, we identify that current Transformer architectures progressively degrade the original positional and semantic topology of input tokens as the network deepens, thus limiting forecasting accuracy. Furthermore, our theoretical results demonstrate that explicitly enforcing preservation of these topological structures within intermediate layers can tighten generalization bounds, leading to improved forecasting performance. Motivated by these insights, we propose the Topology Enhancement Method (TEM), a novel Transformer-based TSF method that explicitly and adaptively preserves token-level topology. TEM consists of two core modules: 1) the Positional Topology Enhancement Module (PTEM), which injects learnable positional constraints to explicitly retain original positional topology; 2) the Semantic Topology Enhancement Module (STEM), which incorporates a learnable similarity matrix to preserve original semantic topology. To determine optimal injection weights adaptively, TEM employs a bi-level optimization strategy. The proposed TEM is a plug-and-play method that can be integrated with existing Transformer-based TSF methods. Extensive experiments demonstrate that integrating TEM with a variety of existing methods significantly improves their predictive performance, validating the effectiveness of explicitly preserving original token-level topology. Our code is publicly available at: \href{https://github.com/jlu-phyComputer/TEM}{https://github.com/jlu-phyComputer/TEM}.
- Abstract(参考訳): 入力トークン間の位置的および意味的トポロジ的関係を捉えることで,時系列予測(TSF)における最先端性能を実現した。
しかし、既存のトランスフォーマーが中間層全体を通してトークン間の固有位相構造を完全に活用しているかどうかは不明である。
経験的および理論的解析により、現在のトランスフォーマーアーキテクチャは、入力トークンの本来の位置および意味的トポロジを、ネットワークの深みに応じて徐々に劣化させ、予測精度を制限している。
さらに, 中間層内のトポロジ構造を明示的に保存することにより, 一般化境界を狭めることができ, 予測性能が向上することを示した。
そこで本研究では,トークンレベルのトポロジを明示的にかつ適応的に保存するトランスフォーマーベースの新しいTSF手法であるトポロジ拡張法(TEM)を提案する。
TEMは2つのコアモジュールから構成される。
1) 学習可能な位置制約を注入して元の位置トポロジを明示的に保持する位置トポロジ拡張モジュール(PTEM)
2)セマンティックトポロジ拡張モジュール(STEM)は,学習可能な類似性行列を組み込んで,本来の意味的トポロジを保存する。
最適噴射重量を適応的に決定するために、TEMは二段階最適化戦略を採用している。
The proposed TEM is a plug-and-play method that can integrated with existing Transformer-based TSF method。
様々な既存手法とTEMを統合することで予測性能が大幅に向上し、元のトークンレベルのトポロジを明示的に保存するの有効性が検証された。
私たちのコードは以下に公開されています。 \href{https://github.com/jlu-phyComputer/TEM}{https://github.com/jlu-phyComputer/TEM}。
関連論文リスト
- Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models [13.707653566827704]
トランスフォーマーモデルは、ドメインやタスク間で最先端のパフォーマンスを達成するが、その深い階層化表現により、予測の解釈が困難になる。
既存の説明可能性法は最終層属性に依存し、局所的なトークンレベルの属性か、統一せずにグローバルな注意パターンをキャプチャする。
本稿では,各トランスフォーマーブロック内の階層的に統合されたグラディエントを計算し,これらのトークンレベルの属性をクラス固有の注意勾配と融合する階層型属性フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-18T17:03:10Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Graded Transformers [0.0]
そこで我々は,ベクトル空間上のグレーディングを通じて帰納バイアスを埋め込む新しいシーケンスモデルである Graded Transformer フレームワークを紹介した。
このフレームワークは、以前のモデルの固定グレードの制限を克服し、適応的な特徴優先順位付けを可能にする。
Graded Transformerは、階層的学習とニューロシンボリック推論に対する数学的に原則化されたアプローチを提供する。
論文 参考訳(メタデータ) (2025-07-27T02:34:08Z) - IGD: Token Decisiveness Modeling via Information Gain in LLMs for Personalized Recommendation [70.2753541780788]
我々は,トークン決定性をチューニングと復号の両方に統合する情報ゲインに基づく決定性対応トークンハンドリング(IGD)戦略を導入する。
IGDはリコメンデーションの精度を一貫して改善し、強力なベースラインに比べて広く使われているランキングの指標で顕著に向上した。
論文 参考訳(メタデータ) (2025-06-16T08:28:19Z) - Learning to Insert [PAUSE] Tokens for Better Reasoning [6.823521786512908]
我々はDIT(Dynamic Inserting Tokens Training)と呼ばれる新しいアプローチを導入する。
本手法は,トークンログに類似したモデル信頼度が最も低いシーケンス内の位置を同定する。
GSM8Kでは最大4.7%、AQUA-RATでは3.23%、MBPPデータセットでは最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-06-04T06:48:41Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - ORIGAMI: A generative transformer architecture for predictions from semi-structured data [3.5639148953570836]
ORIGAMIは、ネストされたキー/バリューペアを処理するトランスフォーマーベースのアーキテクチャである。
分類を次点予測として再構成することで、ORIGAMIはシングルラベルとマルチラベルの両方のタスクを自然に処理する。
論文 参考訳(メタデータ) (2024-12-23T07:21:17Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Improving Next Tokens via Second-Last Predictions with Generate and Refine [1.8592384822257952]
トークン列の最後の2番目のトークンを予測するために、デコーダのみのアーキテクチャをトレーニングします。
提案手法により,BERTモデルよりも高い計算訓練効率が得られる。
論文 参考訳(メタデータ) (2024-11-23T22:09:58Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Dual-Path Adversarial Lifting for Domain Shift Correction in Online Test-time Adaptation [59.18151483767509]
テスト時間適応におけるドメインシフト補正のためのデュアルパストークンリフトを導入する。
次に、インターリーブされたトークン予測とドメインシフトトークンのパスとクラストークンのパスの間の更新を行う。
評価実験の結果,提案手法はオンライン完全テスト時間領域適応性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-08-26T02:33:47Z) - Efficiently improving key weather variables forecasting by performing the guided iterative prediction in latent space [0.8885727065823155]
本稿では,「符号化予測復号」予測ネットワークを提案する。
より入力された大気変数から、キー変数関連低次元潜伏特徴を適応的に抽出することができる。
我々は、予測結果と入力変数の時間的相関を高めるために、より多くの時間ステップを入力することで、citebi2023精度でHTAアルゴリズムを改善する。
論文 参考訳(メタデータ) (2024-07-27T05:56:37Z) - Learning Visual Conditioning Tokens to Correct Domain Shift for Fully Test-time Adaptation [24.294049653744185]
トランスを用いた画像分類では、第1変圧器エンコーダ層のクラストークンを学習して、テスト時間適応時のターゲットサンプルのドメイン固有の特性をキャプチャすることができる。
本稿では,ドメイン固有の特徴の長期的変動を捉えつつ,インスタンス固有の特徴の局所的変動を調節する二段階学習手法を提案する。
提案手法により,テスト時間適応性能を最大1.9%向上させることができる。
論文 参考訳(メタデータ) (2024-06-27T17:16:23Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - CARD: Channel Aligned Robust Blend Transformer for Time Series
Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。
まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。
第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。
第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文 参考訳(メタデータ) (2023-05-20T05:16:31Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - ORCHARD: A Benchmark For Measuring Systematic Generalization of
Multi-Hierarchical Reasoning [8.004425059996963]
本稿では,Transformer と LSTM のモデルが体系的一般化において驚くほど失敗することを示す。
また、階層間の参照の増加に伴い、Transformerはランダムにしか動作しないことを示す。
論文 参考訳(メタデータ) (2021-11-28T03:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。