論文の概要: A Practical Survey on Faster and Lighter Transformers
- arxiv url: http://arxiv.org/abs/2103.14636v1
- Date: Fri, 26 Mar 2021 17:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:36:47.877898
- Title: A Practical Survey on Faster and Lighter Transformers
- Title(参考訳): 高速軽量変圧器に関する実態調査
- Authors: Quentin Fournier, Ga\'etan Marceau Caron, and Daniel Aloise
- Abstract要約: トランスは、入力シーケンスの任意の2つの位置を関連付けることができる注意機構のみに基づいたモデルである。
多数のシーケンスモデリングタスクにまたがる最新技術を改善しました。
しかし、その有効性は、シーケンス長に関して二次計算とメモリの複雑さを犠牲にします。
- 参考スコア(独自算出の注目度): 1.452875650827562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent neural networks are effective models to process sequences. However,
they are unable to learn long-term dependencies because of their inherent
sequential nature. As a solution, Vaswani et al. introduced the Transformer, a
model solely based on the attention mechanism that is able to relate any two
positions of the input sequence, hence modelling arbitrary long dependencies.
The Transformer has improved the state-of-the-art across numerous sequence
modelling tasks. However, its effectiveness comes at the expense of a quadratic
computational and memory complexity with respect to the sequence length,
hindering its adoption. Fortunately, the deep learning community has always
been interested in improving the models' efficiency, leading to a plethora of
solutions such as parameter sharing, pruning, mixed-precision, and knowledge
distillation. Recently, researchers have directly addressed the Transformer's
limitation by designing lower-complexity alternatives such as the Longformer,
Reformer, Linformer, and Performer. However, due to the wide range of
solutions, it has become challenging for the deep learning community to
determine which methods to apply in practice to meet the desired trade-off
between capacity, computation, and memory. This survey addresses this issue by
investigating popular approaches to make the Transformer faster and lighter and
by providing a comprehensive explanation of the methods' strengths,
limitations, and underlying assumptions.
- Abstract(参考訳): リカレントニューラルネットワークは、シーケンスを処理する効果的なモデルである。
しかし、その本質的な逐次性のため、長期的な依存関係を学べない。
解決策として、Vaswaniら。
Transformerは、入力シーケンスの任意の2つの位置を関連付けることができ、従って任意の長い依存関係をモデル化できるアテンションメカニズムのみに基づくモデルである。
Transformerは、多くのシーケンスモデリングタスクの最先端を改善した。
しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にして、その採用を妨げる。
幸いなことに、ディープラーニングコミュニティは常にモデルの効率向上に関心を持ち、パラメータ共有、プルーニング、混合精度、知識蒸留といった多くのソリューションを生み出している。
近年、研究者らは、Longformer、Reformer、Linformer、Performerといった低複雑さの代替品を設計することで、Transformerの制限に対処している。
しかし、幅広いソリューションがあるため、ディープラーニングコミュニティでは、キャパシティ、計算、メモリ間のトレードオフを満たすために、実際にどの方法を適用するかを決定することが困難になっている。
本調査は,Transformerの高速化と軽量化のための一般的なアプローチを調査し,手法の強み,限界,基礎となる仮定を包括的に説明することによって,この問題に対処する。
関連論文リスト
- State-Space Modeling in Long Sequence Processing: A Survey on Recurrence in the Transformer Era [59.279784235147254]
このサーベイは、シーケンシャルなデータ処理の反復モデルに基づく最新のアプローチの詳細な概要を提供する。
新たなイメージは、標準のバックプロパゲーション・オブ・タイムから外れた学習アルゴリズムによって構成される、新しいルートを考える余地があることを示唆している。
論文 参考訳(メタデータ) (2024-06-13T12:51:22Z) - On the Resurgence of Recurrent Models for Long Sequences -- Survey and
Research Opportunities in the Transformer Era [59.279784235147254]
この調査は、Recurrenceの統一の傘の下に構築されたこれらのトレンドの概要を提供することを目的としている。
長いシーケンスを処理するという考え方を捨てる際に顕著になる新しい研究機会を強調している。
論文 参考訳(メタデータ) (2024-02-12T23:55:55Z) - Large Sequence Models for Sequential Decision-Making: A Survey [33.35835438923926]
トランスフォーマーはRLコミュニティへの関心が高まり、顕著な有効性と一般化性を持った多くのアプローチを生み出した。
本稿では, シーケンシャル意思決定における大規模シーケンスモデルの有効性向上を目的とした, 今後の研究に向けて, 様々な方法を提案する。
論文 参考訳(メタデータ) (2023-06-24T12:06:26Z) - Decision S4: Efficient Sequence-Based RL via State Spaces Layers [87.3063565438089]
我々は、S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順を提案する。
反復的に訓練され、長距離依存の恩恵を受け、新しい安定したアクター・クリティカルなメカニズムをベースとした、オンデマンドのトレーニング手順。
論文 参考訳(メタデータ) (2023-06-08T13:03:53Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Continual Learning with Transformers for Image Classification [12.028617058465333]
コンピュータビジョンでは、ニューラルネットワークモデルは、過去に何を学んだかを忘れずに、新しい概念を継続的に学習する。
本研究では,適応型適応器の蒸留法 (ADA) を開発した。
本手法は,モデルを再学習することなく,優れた予測性能を維持することを実証的に示す。
論文 参考訳(メタデータ) (2022-06-28T15:30:10Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。