Fugu-MT 論文翻訳(概要): FNetAR: Mixing Tokens with Autoregressive Fourier Transforms

論文の概要: FNetAR: Mixing Tokens with Autoregressive Fourier Transforms

arxiv url: http://arxiv.org/abs/2107.10932v1
Date: Thu, 22 Jul 2021 21:24:02 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-26 22:45:09.133669
Title: FNetAR: Mixing Tokens with Autoregressive Fourier Transforms
Title（参考訳）: FNetAR:自動回帰フーリエ変換によるトークンの混合
Authors: Tim Lou, Michael Park, Mohammad Ramezanali, Vincent Tang
Abstract要約: 本稿では、FNetARが因果言語モデリングのタスクにおいて、最先端の性能(25.8ppl)を維持していることを示す。自己回帰フーリエ変換は、ほとんどのTransformerベースの時系列予測モデルにおけるパラメータとして使われる可能性がある。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this note we examine the autoregressive generalization of the FNet algorithm, in which self-attention layers from the standard Transformer architecture are substituted with a trivial sparse-uniformsampling procedure based on Fourier transforms. Using the Wikitext-103 benchmark, we demonstratethat FNetAR retains state-of-the-art performance (25.8 ppl) on the task of causal language modelingcompared to a Transformer-XL baseline (24.2 ppl) with only half the number self-attention layers,thus providing further evidence for the superfluity of deep neural networks with heavily compoundedattention mechanisms. The autoregressive Fourier transform could likely be used for parameterreduction on most Transformer-based time-series prediction models.
Abstract（参考訳）: 本稿では、fnetアルゴリズムの自己回帰的一般化について検討し、標準トランスフォーマーアーキテクチャからの自己アテンション層をフーリエ変換に基づく自明なスパース一様サンプリング手順に置き換える。 wikitext-103ベンチマークを用いて、fnetarは、transformer-xlベースライン(24.2 ppl)に匹敵する因果的言語モデリングのタスクにおいて、最先端のパフォーマンス(25.8 ppl)を維持していることを実証した。自己回帰フーリエ変換は、ほとんどのTransformerベースの時系列予測モデルでパラメータ還元に使用される可能性がある。

関連論文リスト

Converting Transformers into DGNNs Form [3.7468283401703797]
ダイグラフフーリエ変換に基づく合成ユニタリグラフ畳み込みを導入する。 Converterと呼ぶ結果のモデルは、トランスフォーマーをダイレクトグラフニューラルネットワーク形式に効果的に変換する。我々は、Long-Range Arenaベンチマーク、Long-Range Arena分類、DNAシークエンスに基づく分類でConverterを検証した。
論文参考訳（メタデータ） (2025-02-01T22:44:46Z)
Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。 Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文参考訳（メタデータ） (2024-10-07T17:57:38Z)
PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2024-08-20T01:56:07Z)
iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。 iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文参考訳（メタデータ） (2023-10-10T13:44:09Z)
Fourier Transformer: Fast Long Range Modeling by Removing Sequence Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。 CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文参考訳（メタデータ） (2023-05-24T12:33:06Z)
Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文参考訳（メタデータ） (2022-11-26T01:56:05Z)
FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。 3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文参考訳（メタデータ） (2022-03-24T07:26:29Z)
FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting [23.199388386249215]
本稿では,Transformerと季節差分解法を組み合わせることで,時系列のグローバルなプロファイルを解析する手法を提案する。我々は、ほとんどの時系列がフーリエ変換のようなよく知られた基底でスパース表現を持つ傾向があるという事実を利用する。周波数拡張分解変換器 (bf FEDformer) は, より効率的であるとともに, 周波数拡張分解変換器 (ff FEDformer) とよばれる手法が標準変換器よりも効率的である。
論文参考訳（メタデータ） (2022-01-30T06:24:25Z)
New Approaches to Long Document Summarization: Fourier Transform Based Attention in a Transformer Model [0.0]
本稿では,Fourier Transforms (FNET) を用いた新しいトークン混合方式を広範囲に再設計し,計算コストのかかる自己保持機構を置き換えた。また,8000以上のトークンを処理可能な確立された手法を用いて,長い文書要約を行う。全ての変更は、トランスフォーマーアーキテクチャで元のFNETエンコーダを使用する場合よりも、要約タスクのパフォーマンスが向上した。
論文参考訳（メタデータ） (2021-11-25T18:03:41Z)
TCCT: Tightly-Coupled Convolutional Transformer on Time Series Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文参考訳（メタデータ） (2021-08-29T08:49:31Z)
FNet: Mixing Tokens with Fourier Transforms [0.578717214982749]
Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。 FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
論文参考訳（メタデータ） (2021-05-09T03:32:48Z)
Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-05-20T17:25:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。