論文の概要: Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing
- arxiv url: http://arxiv.org/abs/2006.03236v1
- Date: Fri, 5 Jun 2020 05:16:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:23:36.404400
- Title: Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing
- Title(参考訳): Funnel-Transformer:効率的な言語処理のための逐次冗長性のフィルタリング
- Authors: Zihang Dai, Guokun Lai, Yiming Yang, Quoc V. Le
- Abstract要約: 本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
- 参考スコア(独自算出の注目度): 112.2208052057002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of language pretraining, it is highly desirable to develop
more efficient architectures of good scalability that can exploit the abundant
unlabeled data at a lower cost. To improve the efficiency, we examine the
much-overlooked redundancy in maintaining a full-length token-level
presentation, especially for tasks that only require a single-vector
presentation of the sequence. With this intuition, we propose
Funnel-Transformer which gradually compresses the sequence of hidden states to
a shorter one and hence reduces the computation cost. More importantly, by
re-investing the saved FLOPs from length reduction in constructing a deeper or
wider model, we further improve the model capacity. In addition, to perform
token-level predictions as required by common pretraining objectives,
Funnel-Transformer is able to recover a deep representation for each token from
the reduced hidden sequence via a decoder. Empirically, with comparable or
fewer FLOPs, Funnel-Transformer outperforms the standard Transformer on a wide
variety of sequence-level prediction tasks, including text classification,
language understanding, and reading comprehension. The code and pretrained
checkpoints are available at https://github.com/laiguokun/Funnel-Transformer.
- Abstract(参考訳): 言語の事前学習の成功により、豊富なラベルのないデータを低コストで活用できる優れたスケーラビリティのより効率的なアーキテクチャを開発することが非常に望ましい。
効率を向上させるため,完全長のトークンレベルでのプレゼンテーション,特にシーケンスの単一のvectorのみを必要とするタスクにおいて,見過ごされがちな冗長性を検討する。
この直観により,隠れ状態の列をより短い状態に徐々に圧縮し,計算コストを削減するファンネル変換器を提案する。
さらに,より深く,より広いモデルを構築する際に,保存したFLOPを長さ削減から再投資することにより,モデル容量をさらに向上する。
さらに、共通の事前学習目標によって要求されるトークンレベルの予測を実行するために、funnel-transformerはデコーダを介して縮小された隠れシーケンスから各トークンの深い表現を復元することができる。
経験上、同等か少ないフラップを持つファンネル変換器は、テキスト分類、言語理解、読み理解など、様々なシーケンスレベルの予測タスクで標準トランスフォーマーを上回っている。
コードと事前訓練されたチェックポイントはhttps://github.com/laiguokun/Funnel-Transformer.comで入手できる。
関連論文リスト
- Transkimmer: Transformer Learns to Layer-wise Skim [17.188613474427054]
Transformerベースのモデルの主要な計算非効率の1つは、すべての層で同じ量の計算に費やしていることである。
本稿では,レイヤ毎に不要な隠れ状態トークンを識別するTranskimmerアーキテクチャを提案する。
スキミングされたトークンは直接最終出力に転送され、連続するレイヤの計算が削減される。
論文 参考訳(メタデータ) (2022-05-15T16:23:30Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - Towards Incremental Transformers: An Empirical Analysis of Transformer Models for Incremental NLU [19.103130032967663]
インクリメンタル処理により、対話システムは部分的な入力に基づいて応答できる。
最近の作業では、再起動と増分によってトランスフォーマーを漸進的に適用しようと試みている。
このアプローチは計算コストが高く、長いシーケンスに対して効率よくスケールしない。
論文 参考訳(メタデータ) (2021-09-15T15:20:29Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z) - Shortformer: Better Language Modeling using Shorter Inputs [62.51758040848735]
当初、モデルを短いサブシーケンスでトレーニングした後、長いサブシーケンスに移行する前に、どちらもトレーニング時間を短縮することを示す。
次に, 変圧器における再帰法の効率を改善する方法を示す。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime
with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。
我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。
提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文 参考訳(メタデータ) (2020-10-14T12:28:08Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。