論文の概要: On the Long Range Abilities of Transformers
- arxiv url: http://arxiv.org/abs/2311.16620v1
- Date: Tue, 28 Nov 2023 09:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 19:08:33.011296
- Title: On the Long Range Abilities of Transformers
- Title(参考訳): 変圧器の長距離能力について
- Authors: Itamar Zimerman, Lior Wolf
- Abstract要約: トランスアーキテクチャの変更を最小限に抑えることで,Long Range Arenaベンチマークの性能を大幅に向上させることができることを示す。
長距離タスクの2つの鍵となる原理(すなわち、滑らか性に対する帰納的バイアス)と局所性(すなわち、局所性)である。
以下に示すように、これらのアイデアを注意機構に組み込むことで、追加の計算量や追加のトレーニング可能なパラメータなしで結果を改善することができる。
- 参考スコア(独自算出の注目度): 69.3021852589771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their dominance in modern DL and, especially, NLP domains,
transformer architectures exhibit sub-optimal performance on long-range tasks
compared to recent layers that are specifically designed for this purpose. In
this work, drawing inspiration from key attributes of long-range layers, such
as state-space layers, linear RNN layers, and global convolution layers, we
demonstrate that minimal modifications to the transformer architecture can
significantly enhance performance on the Long Range Arena (LRA) benchmark, thus
narrowing the gap with these specialized layers. We identify that two key
principles for long-range tasks are (i) incorporating an inductive bias towards
smoothness, and (ii) locality. As we show, integrating these ideas into the
attention mechanism improves results with a negligible amount of additional
computation and without any additional trainable parameters. Our theory and
experiments also shed light on the reasons for the inferior performance of
transformers on long-range tasks and identify critical properties that are
essential for successfully capturing long-range dependencies.
- Abstract(参考訳): 現代のDLや、特にNLPドメインにおいて支配的であるにもかかわらず、トランスフォーマーアーキテクチャは、この目的のために特別に設計された最近のレイヤと比較して、長距離タスクに準最適性能を示す。
本稿では,状態空間層,線形rnn層,大域畳み込み層といった長距離層の主要な特性から着想を得て,トランスフォーマーアーキテクチャの最小限の変更が,long range arena (lra)ベンチマークの性能を著しく向上させ,これらの特殊な層とのギャップを狭めることを実証する。
長距離タスクの2つの重要な原則は
(i)滑らかさに対する帰納的バイアスを取り入れ、
(二)地域性。
私たちが示すように、これらのアイデアをアテンションメカニズムに統合することで、追加の計算量と追加のトレーニング可能なパラメータなしで結果が向上する。
我々の理論と実験は、長距離タスクにおけるトランスフォーマーの性能が劣る理由にも光を当て、長距離依存関係の取得に不可欠な重要な特性を特定した。
関連論文リスト
- MuseGNN: Interpretable and Convergent Graph Neural Network Layers at
Scale [15.93424606182961]
本稿では, ある設定における収束保証によって導かれる, サンプリングベースエネルギー関数と拡張性のあるGNN層を反復的に削減する手法を提案する。
また、これらの設計に基づいて完全なGNNアーキテクチャをインスタンス化し、1TBを超える最大公用ノード分類ベンチマークに適用した場合の競合精度とスケーラビリティを実現する。
論文 参考訳(メタデータ) (2023-10-19T04:30:14Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - LSG Attention: Extrapolation of pretrained Transformers to long
sequences [0.0]
ローカル・スパース・グローバル・アテンションに依存したLSGアーキテクチャを導入する。
長文の分類と要約作業においてLSGの注意は高速で効率的で競争力があることを示す。
我々は新しいモデルをトレーニングし、このメカニズムに基づいて既存のモデルを適応するためのツールを提案する。
論文 参考訳(メタデータ) (2022-10-13T13:10:41Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - The NLP Task Effectiveness of Long-Range Transformers [38.46467445144777]
トランスフォーマーモデルは、O(N2)時間と空間の複雑さのため、容易に長い列にスケールできない。
5つの困難なNLPタスクと7つのデータセットに対して、Transformerモデルの7つの変種をベンチマークする。
長い範囲のトランスフォーマーの注意は、コンテンツ選択とクエリ誘導デコードに利点があるが、以前は認識されていなかった欠点が伴っている。
論文 参考訳(メタデータ) (2022-02-16T04:39:35Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。