論文の概要: VarDrop: Enhancing Training Efficiency by Reducing Variate Redundancy in Periodic Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2501.14183v2
- Date: Mon, 03 Feb 2025 05:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:06:51.841128
- Title: VarDrop: Enhancing Training Efficiency by Reducing Variate Redundancy in Periodic Time Series Forecasting
- Title(参考訳): VarDrop: 定期的時系列予測における可変冗長性低減によるトレーニング効率の向上
- Authors: Junhyeok Kang, Yooju Shin, Jae-Gil Lee,
- Abstract要約: 可変トークン化は時系列予測において著しく改善されている。
トレーニング中に冗長な可変トークンを省略することによりトークン使用量を削減する戦略であるVarDropを提案する。
VarDropは、与えられたバッチ内で冗長トークンを適応的に排除し、ドット生成注意のために使用されるトークンの数を削減します。
公開ベンチマークデータセットで実施された実験は、VarDropが既存の効率的なベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 16.171044384795124
- License:
- Abstract: Variate tokenization, which independently embeds each variate as separate tokens, has achieved remarkable improvements in multivariate time series forecasting. However, employing self-attention with variate tokens incurs a quadratic computational cost with respect to the number of variates, thus limiting its training efficiency for large-scale applications. To address this issue, we propose VarDrop, a simple yet efficient strategy that reduces the token usage by omitting redundant variate tokens during training. VarDrop adaptively excludes redundant tokens within a given batch, thereby reducing the number of tokens used for dot-product attention while preserving essential information. Specifically, we introduce k-dominant frequency hashing (k-DFH), which utilizes the ranked dominant frequencies in the frequency domain as a hash value to efficiently group variate tokens exhibiting similar periodic behaviors. Then, only representative tokens in each group are sampled through stratified sampling. By performing sparse attention with these selected tokens, the computational cost of scaled dot-product attention is significantly alleviated. Experiments conducted on public benchmark datasets demonstrate that VarDrop outperforms existing efficient baselines.
- Abstract(参考訳): 各変数を独立したトークンとして独立に埋め込む可変トークン化は、多変量時系列予測において顕著に改善されている。
しかし、変量トークンによる自己注意を用いることで、変量数に対して2次計算コストが発生するため、大規模アプリケーションでのトレーニング効率が制限される。
この問題に対処するために、トレーニング中に冗長な可変トークンを省略することでトークンの使用を減らす、シンプルだが効率的な戦略であるVarDropを提案する。
VarDropは、与えられたバッチ内で冗長トークンを適応的に排除し、重要な情報を保持しながらドット製品への注意に使用するトークンの数を削減します。
具体的には,k-dominant frequency hashing (k-DFH)を導入し,周波数領域における支配的な周波数をハッシュ値として利用して,同様の周期挙動を示す可変トークンを効率的にグループ化する。
そして、各グループの代表トークンのみが成層サンプリングによってサンプリングされる。
選択したトークンでスパースアテンションを行うことにより、スケールしたドット積アテンションの計算コストが大幅に軽減される。
公開ベンチマークデータセットで実施された実験は、VarDropが既存の効率的なベースラインを上回っていることを示している。
関連論文リスト
- EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models [40.651650382105636]
Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。
本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。
提案手法は, パディングトークンを追加することなく, 異なるサンプルの予測トークンが矛盾する状況に対処できる。
論文 参考訳(メタデータ) (2024-05-13T08:24:21Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Unlocking the Transferability of Tokens in Deep Models for Tabular Data [67.11727608815636]
トレーニング済みのディープニューラルネットワークの微調整は、さまざまな機械学習タスクにおいて成功しているパラダイムとなっている。
本稿では,特徴トークンの品質向上を目的としたTabTokenを提案する。
トークンを規則化し、機能内および機能間のセマンティクスをキャプチャする、対照的な目的を導入します。
論文 参考訳(メタデータ) (2023-10-23T17:53:09Z) - Tree Cross Attention [59.8891512435847]
Tree Cross Attention (TCA) は、Cross Attentionに基づくモジュールで、パラメータ $mathcalO(log(N))$ のトークン数からのみ情報を取得する。
さまざまな分類や不確実性回帰タスクに対して,TCAはクロスアテンションに匹敵する性能を示し,トークン効率は著しく向上した。
論文 参考訳(メタデータ) (2023-09-29T16:50:23Z) - Assessing Keyness using Permutation Tests [0.0]
トークン単位のサンプリングモデルを,トークンではなく文書のサンプルであるコーパスモデルに置き換える。
トークンがドキュメント内やドキュメント間でどのように整理されているかという仮定は必要ありません。
論文 参考訳(メタデータ) (2023-08-25T13:52:57Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Pyramid-BERT: Reducing Complexity via Successive Core-set based Token
Selection [23.39962989492527]
BERTのようなトランスフォーマーベースの言語モデルは、様々なNLPタスクで最先端を達成しているが、計算的に禁止されている。
本稿では,従来の使用法を,理論的な結果によって正当化されたemコアセットベースのトークン選択法で置き換えるピラミッド-BERTを提案する。
コアセットベースのトークン選択技術により、高価な事前トレーニングを回避でき、空間効率の良い微調整が可能となり、長いシーケンス長を扱うのに適している。
論文 参考訳(メタデータ) (2022-03-27T19:52:01Z) - AdapLeR: Speeding up Inference by Adaptive Length Reduction [15.57872065467772]
本稿では,下流性能の低下を最小限に抑えながら,BERTの計算コストを削減する手法を提案する。
提案手法は,レイヤ間のコントリビューションの少ないトークンを動的に除去し,結果として長さが短くなり,計算コストが低下する。
様々な分類タスクに関する実験では、性能の犠牲を伴わずに、推論時間中に最大22倍のスピードアップを示す。
論文 参考訳(メタデータ) (2022-03-16T23:41:38Z) - You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli
Sampling [38.34914626128062]
本研究では,LSH(Locality Sensitive Hashing)に基づくBernoulliサンプリングアテンション機構が,そのようなモデルの二次的複雑性を線形に減少させることを示す。
提案アルゴリズムは,標準512列長のGLUEベンチマークで評価し,標準事前学習型変換器と比較して良好な性能を示した。
論文 参考訳(メタデータ) (2021-11-18T14:24:34Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。