Fugu-MT 論文翻訳(概要): Fine-Tuning Pre-trained Transformers into Decaying Fast Weights

論文の概要: Fine-Tuning Pre-trained Transformers into Decaying Fast Weights

arxiv url: http://arxiv.org/abs/2210.04243v1
Date: Sun, 9 Oct 2022 12:27:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-11 18:30:22.476356
Title: Fine-Tuning Pre-trained Transformers into Decaying Fast Weights
Title（参考訳）: 微調整プリトレーニングトランスの軽量化
Authors: Huanru Henry Mao
Abstract要約: 自己アテンション機構による自己回帰変換器は, トーケン世代ごとのO(T)複雑性を誘発する。近年の研究では、因果自己注意を近似するカーネルベースの手法が提案されている。我々は、GPU上で高速に動作し、先行手法より優れ、GPT-2に対する注意力の99%を維持できる単純な代替手段である、崩壊する高速ウェイトを提案する。
参考スコア（独自算出の注目度）: 1.1802674324027231
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregressive Transformers are strong language models but incur O(T) complexity during per-token generation due to the self-attention mechanism. Recent work proposes kernel-based methods to approximate causal self-attention by replacing it with recurrent formulations with various update rules and feature maps to achieve O(1) time and memory complexity. We explore these approaches and find that they are unnecessarily complex, and propose a simple alternative - decaying fast weights - that runs fast on GPU, outperforms prior methods, and retains 99% of attention's performance for GPT-2. We also show competitive performance on WikiText-103 against more complex attention substitutes.
Abstract（参考訳）: 自己回帰トランスフォーマーは強固な言語モデルであるが、自己着脱機構に起因するトケン発生時のo(t)複雑性を引き起こす。最近の研究は、O(1)時間とメモリの複雑さを達成するために、再帰的な定式化を様々な更新規則と特徴マップで置き換えることで、因果自己注意を近似するカーネルベースの手法を提案する。これらのアプローチを調査して,それらが不必要に複雑であることを突き止め,gpu上で高速に動作し,従来のメソッドを上回り,gpt-2のパフォーマンスの99%を保ちながら,簡単な選択肢 – フェース・ファストウェイト – を提案する。また, WikiText-103では, より複雑な注目代行に対して, 競争性能を示す。

関連論文リスト

AutoHFormer: Efficient Hierarchical Autoregressive Transformer for Time Series Prediction [36.239648954658534]
時系列予測には、3つの競合する目標を同時に達成するアーキテクチャが必要である。本稿では,これらの課題に対処する階層型自己回帰変換器であるAutoHFormerを紹介する。総合的な実験により、AutoHFormer 10.76XはP08のPatchTSTと比較して高速なトレーニングと6.06倍のメモリ削減を示した。
論文参考訳（メタデータ） (2025-06-19T03:47:04Z)
Decomposition-based multi-scale transformer framework for time series anomaly detection [0.9438207505148947]
時系列異常検出のための分解(TransDe)に基づくトランスフォーマーベースのフレームワークを提案する。時系列の各分解成分の代表的な依存関係を利用するために,マルチスケールのパッチベースのトランスフォーマーアーキテクチャを提案する。 TransDeの性能を効果的に向上するために、停止段階の戦略を持つ新しい非同期損失関数を導入した。
論文参考訳（メタデータ） (2025-04-19T06:47:38Z)
Towards Transformer-Based Aligned Generation with Self-Coherence Guidance [51.42269790543461]
トランスフォーマーを用いたテキストガイド拡散モデル(TGDM)におけるアライメント向上のためのトレーニング不要アプローチを提案する。既存のTGDMは、特に複雑なテキストプロンプトやマルチコンセプト属性バインディングの問題を扱う場合、意味的に整合した画像を生成するのに苦労することが多い。本手法は,生成過程において,相互注意マップを直接最適化することにより,これらの課題に対処する。
論文参考訳（メタデータ） (2025-03-22T07:03:57Z)
Diffusion Auto-regressive Transformer for Effective Self-supervised Time Series Forecasting [47.58016750718323]
我々はTimeDARTと呼ばれる新しい自己管理手法を提案する。 TimeDARTは、時系列データ内のグローバルシーケンス依存とローカル詳細特徴の両方をキャプチャする。私たちのコードはhttps://github.com/Melmaphother/TimeDART.comで公開されています。
論文参考訳（メタデータ） (2024-10-08T06:08:33Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
ReCycle: Fast and Efficient Long Time Series Forecasting with Residual Cyclic Transformers [0.06965384453064827]
ReCycleと呼ばれるResidual Cyclic Transformerは、ハイメソッドの複雑さとリアルな計算リソースのギャップを埋める。提案手法は,低性能,低消費電力,エッジコンピューティングデバイス上でのトレーニングと推論を両立させることにより,実行時間とエネルギー消費を1桁以上削減する。
論文参考訳（メタデータ） (2024-05-06T12:48:34Z)
FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文参考訳（メタデータ） (2024-02-12T18:59:39Z)
Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。提案手法を拡張・結合する新しい手法を提案し,検討する。
論文参考訳（メタデータ） (2024-02-01T19:47:31Z)
Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文参考訳（メタデータ） (2023-10-03T08:44:50Z)
TAPIR: Learning Adaptive Revision for Incremental Natural Language Understanding with a Two-Pass Model [14.846377138993645]
インクリメンタル処理のための最近のニューラルネットワークベースのアプローチは、主にRNNまたはTransformerを使用する。より長い入力プレフィックスを繰り返し通過する再起動/インクリメンタルインターフェースは、部分的な出力を得るために使用でき、更新する機能を提供する。本稿では、AdaPtIve Revision(TAPIR)の2パスモデルを提案し、適応的な修正ポリシーを学ぶための漸進的な監視信号を得る方法を提案する。
論文参考訳（メタデータ） (2023-05-18T09:58:19Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
Easy and Efficient Transformer : Scalable Inference Solution For large NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。 EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文参考訳（メタデータ） (2021-04-26T11:00:56Z)
Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。線形複雑リカレント変種は自己回帰生成に適していることが証明されている。この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文参考訳（メタデータ） (2021-03-24T10:50:43Z)
Shortformer: Better Language Modeling using Shorter Inputs [62.51758040848735]
当初、モデルを短いサブシーケンスでトレーニングした後、長いサブシーケンスに移行する前に、どちらもトレーニング時間を短縮することを示す。次に, 変圧器における再帰法の効率を改善する方法を示す。
論文参考訳（メタデータ） (2020-12-31T18:52:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。