論文の概要: The NLP Task Effectiveness of Long-Range Transformers
- arxiv url: http://arxiv.org/abs/2202.07856v1
- Date: Wed, 16 Feb 2022 04:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 00:27:48.319579
- Title: The NLP Task Effectiveness of Long-Range Transformers
- Title(参考訳): ロングランジ変圧器のNLPタスク効果
- Authors: Guanghui Qin, Yukun Feng, Benjamin Van Durme
- Abstract要約: トランスフォーマーモデルは、O(N2)時間と空間の複雑さのため、容易に長い列にスケールできない。
5つの困難なNLPタスクと7つのデータセットに対して、Transformerモデルの7つの変種をベンチマークする。
長い範囲のトランスフォーマーの注意は、コンテンツ選択とクエリ誘導デコードに利点があるが、以前は認識されていなかった欠点が伴っている。
- 参考スコア(独自算出の注目度): 38.46467445144777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models cannot easily scale to long sequences due to their O(N^2)
time and space complexity. This has led to Transformer variants seeking to
lessen computational complexity, such as Longformer and Performer. While such
models have theoretically greater efficiency, their effectiveness on real NLP
tasks has not been well studied. We benchmark 7 variants of Transformer models
on 5 difficult NLP tasks and 7 datasets. We design experiments to isolate the
effect of pretraining and hyperparameter settings, to focus on their capacity
for long-range attention. Moreover, we present various methods to investigate
attention behaviors, to illuminate model details beyond metric scores. We find
that attention of long-range transformers has advantages on content selection
and query-guided decoding, but they come with previously unrecognized drawbacks
such as insufficient attention to distant tokens.
- Abstract(参考訳): トランスフォーマーモデルは、o(n^2)時間と空間の複雑さのため、長いシーケンスに容易にスケールできない。
これによりTransformerの変種はLongformerやPerformerといった計算複雑性を減らそうとしている。
このようなモデルは理論上より効率が良いが、実際のNLPタスクに対する有効性は十分に研究されていない。
5つの難解なnlpタスクと7つのデータセットでトランスフォーマーモデルの7つの変種をベンチマークする。
我々は,事前学習とハイパーパラメータ設定の効果を分離し,長期注意のためのキャパシティに着目した実験をデザインする。
さらに,注意行動を調べるための様々な手法を提案し,測定値以外のモデルの詳細を照らし出す。
長距離トランスフォーマーの注目は,コンテンツ選択やクエリ誘導デコードに優れるが,遠隔トークンに対する注意不足など,これまで認識されていなかった欠点が伴う。
関連論文リスト
- On the Long Range Abilities of Transformers [69.3021852589771]
トランスアーキテクチャの変更を最小限に抑えることで,Long Range Arenaベンチマークの性能を大幅に向上させることができることを示す。
長距離タスクの2つの鍵となる原理(すなわち、滑らか性に対する帰納的バイアス)と局所性(すなわち、局所性)である。
以下に示すように、これらのアイデアを注意機構に組み込むことで、追加の計算量や追加のトレーニング可能なパラメータなしで結果を改善することができる。
論文 参考訳(メタデータ) (2023-11-28T09:21:48Z) - Manifold-Preserving Transformers are Effective for Short-Long Range
Encoding [39.14128923434994]
マルチヘッドセルフアテンションベースのトランスフォーマーは、異なる学習タスクにおいて有望であることを示す。
本研究では,一対のトークン間の層間距離保存を理論的に保証するエンコーダモデルTransJectを提案する。
論文 参考訳(メタデータ) (2023-10-22T06:58:28Z) - Efficient Long-Range Transformers: You Need to Attend More, but Not
Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。
MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。
実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文 参考訳(メタデータ) (2023-10-19T03:32:05Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - Informer: Beyond Efficient Transformer for Long Sequence Time-Series
Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。
最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。
我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文 参考訳(メタデータ) (2020-12-14T11:43:09Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z) - DA-Transformer: Distance-aware Transformer [87.20061062572391]
DA-Transformerは、実際の距離を利用することができる距離対応トランスである。
本稿では,実距離を利用した距離認識変換器であるDA-Transformerを提案する。
論文 参考訳(メタデータ) (2020-10-14T10:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。