Fugu-MT 論文翻訳(概要): Exploring the Role of Token in Transformer-based Time Series Forecasting

論文の概要: Exploring the Role of Token in Transformer-based Time Series Forecasting

arxiv url: http://arxiv.org/abs/2404.10337v3
Date: Wed, 30 Oct 2024 01:49:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.883935
Title: Exploring the Role of Token in Transformer-based Time Series Forecasting
Title（参考訳）: 変圧器を用いた時系列予測におけるトークンの役割を探る
Authors: Jianqi Zhang, Jingyao Wang, Chuxiong Sun, Xingchen Shen, Fanjiang Xu, Changwen Zheng, Wenwen Qiang,
Abstract要約: Transformer-based method is a mainstream approach for solve time series forecasting (TSF) モデル構造を最適化することに集中しており、予測のためのトークンの役割に注意を払う研究はほとんどない。勾配は、主に正のトークンと呼ばれる予測級数に寄与するトークンに依存する。 T-PEとV-PEを利用するために,トランスフォーマーベースのデュアルブランチフレームワークであるT2B-PEを提案する。
参考スコア（独自算出の注目度）: 10.081240480138487
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Transformer-based methods are a mainstream approach for solving time series forecasting (TSF). These methods use temporal or variable tokens from observable data to make predictions. However, most focus on optimizing the model structure, with few studies paying attention to the role of tokens for predictions. The role is crucial since a model that distinguishes useful tokens from useless ones will predict more effectively. In this paper, we explore this issue. Through theoretical analyses, we find that the gradients mainly depend on tokens that contribute to the predicted series, called positive tokens. Based on this finding, we explore what helps models select these positive tokens. Through a series of experiments, we obtain three observations: i) positional encoding (PE) helps the model identify positive tokens; ii) as the network depth increases, the PE information gradually weakens, affecting the model's ability to identify positive tokens in deeper layers; iii) both enhancing PE in the deeper layers and using semantic-based PE can improve the model's ability to identify positive tokens, thus boosting performance. Inspired by these findings, we design temporal positional encoding (T-PE) for temporal tokens and variable positional encoding (V-PE) for variable tokens. To utilize T-PE and V-PE, we propose T2B-PE, a Transformer-based dual-branch framework. Extensive experiments demonstrate that T2B-PE has superior robustness and effectiveness.
Abstract（参考訳）: Transformer-based methodは時系列予測(TSF)を解く主要な手法である。これらのメソッドは、観測可能なデータから時間トークンまたは変数トークンを使用して予測を行う。しかし、ほとんどの研究はモデル構造を最適化することに集中しており、予測のためのトークンの役割に注意を払う研究はほとんどない。有用なトークンと役に立たないトークンを区別するモデルは、より効果的に予測できるため、この役割は極めて重要である。本稿では,この問題について考察する。理論的解析により、勾配は主に正のトークンと呼ばれる予測級数に寄与するトークンに依存していることがわかった。この発見に基づいて、モデルがこれらの正のトークンを選択するのに役立つものを探る。一連の実験を通して、3つの観測結果を得た。一ポジショナルエンコーディング(PE)は、正のトークンの識別に役立ちます。二ネットワーク深度が増大するにつれて、PE情報は徐々に弱まり、より深い層における正のトークンを識別するモデルの能力に影響を及ぼす。三深層におけるPEの強化及び意味に基づくPEの使用により、正のトークンを識別するモデルの能力が向上し、性能が向上する。これらの知見に触発されて、時間トークンのための時間的位置符号化(T-PE)と可変トークンのための可変位置符号化(V-PE)を設計する。 T-PEとV-PEを利用するために,トランスフォーマーベースのデュアルブランチフレームワークであるT2B-PEを提案する。大規模な実験により、T2B-PEはより優れた堅牢性と有効性を有することが示された。

関連論文リスト

IGD: Token Decisiveness Modeling via Information Gain in LLMs for Personalized Recommendation [70.2753541780788]
我々は,トークン決定性をチューニングと復号の両方に統合する情報ゲインに基づく決定性対応トークンハンドリング(IGD)戦略を導入する。 IGDはリコメンデーションの精度を一貫して改善し、強力なベースラインに比べて広く使われているランキングの指標で顕著に向上した。
論文参考訳（メタデータ） (2025-06-16T08:28:19Z)
Learning to Insert [PAUSE] Tokens for Better Reasoning [6.823521786512908]
我々はDIT(Dynamic Inserting Tokens Training)と呼ばれる新しいアプローチを導入する。本手法は,トークンログに類似したモデル信頼度が最も低いシーケンス内の位置を同定する。 GSM8Kでは最大4.7%、AQUA-RATでは3.23%、MBPPデータセットでは最大3.4%の精度向上を実現している。
論文参考訳（メタデータ） (2025-06-04T06:48:41Z)
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-11-29T18:58:22Z)
Improving Next Tokens via Second-Last Predictions with Generate and Refine [1.8592384822257952]
トークン列の最後の2番目のトークンを予測するために、デコーダのみのアーキテクチャをトレーニングします。提案手法により,BERTモデルよりも高い計算訓練効率が得られる。
論文参考訳（メタデータ） (2024-11-23T22:09:58Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文参考訳（メタデータ） (2024-10-23T11:06:36Z)
Dual-Path Adversarial Lifting for Domain Shift Correction in Online Test-time Adaptation [59.18151483767509]
テスト時間適応におけるドメインシフト補正のためのデュアルパストークンリフトを導入する。次に、インターリーブされたトークン予測とドメインシフトトークンのパスとクラストークンのパスの間の更新を行う。評価実験の結果,提案手法はオンライン完全テスト時間領域適応性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-08-26T02:33:47Z)
Efficiently improving key weather variables forecasting by performing the guided iterative prediction in latent space [0.8885727065823155]
本稿では,「符号化予測復号」予測ネットワークを提案する。より入力された大気変数から、キー変数関連低次元潜伏特徴を適応的に抽出することができる。我々は、予測結果と入力変数の時間的相関を高めるために、より多くの時間ステップを入力することで、citebi2023精度でHTAアルゴリズムを改善する。
論文参考訳（メタデータ） (2024-07-27T05:56:37Z)
Learning Visual Conditioning Tokens to Correct Domain Shift for Fully Test-time Adaptation [24.294049653744185]
トランスを用いた画像分類では、第1変圧器エンコーダ層のクラストークンを学習して、テスト時間適応時のターゲットサンプルのドメイン固有の特性をキャプチャすることができる。本稿では,ドメイン固有の特徴の長期的変動を捉えつつ,インスタンス固有の特徴の局所的変動を調節する二段階学習手法を提案する。提案手法により,テスト時間適応性能を最大1.9%向上させることができる。
論文参考訳（メタデータ） (2024-06-27T17:16:23Z)
ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。 ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-06-13T05:17:21Z)
AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文参考訳（メタデータ） (2023-11-02T12:48:43Z)
CARD: Channel Aligned Robust Blend Transformer for Time Series Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文参考訳（メタデータ） (2023-05-20T05:16:31Z)
Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-03-14T12:53:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。