論文の概要: On the Long Range Abilities of Transformers
- arxiv url: http://arxiv.org/abs/2311.16620v1
- Date: Tue, 28 Nov 2023 09:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 19:08:33.011296
- Title: On the Long Range Abilities of Transformers
- Title(参考訳): 変圧器の長距離能力について
- Authors: Itamar Zimerman, Lior Wolf
- Abstract要約: トランスアーキテクチャの変更を最小限に抑えることで,Long Range Arenaベンチマークの性能を大幅に向上させることができることを示す。
長距離タスクの2つの鍵となる原理(すなわち、滑らか性に対する帰納的バイアス)と局所性(すなわち、局所性)である。
以下に示すように、これらのアイデアを注意機構に組み込むことで、追加の計算量や追加のトレーニング可能なパラメータなしで結果を改善することができる。
- 参考スコア(独自算出の注目度): 69.3021852589771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their dominance in modern DL and, especially, NLP domains,
transformer architectures exhibit sub-optimal performance on long-range tasks
compared to recent layers that are specifically designed for this purpose. In
this work, drawing inspiration from key attributes of long-range layers, such
as state-space layers, linear RNN layers, and global convolution layers, we
demonstrate that minimal modifications to the transformer architecture can
significantly enhance performance on the Long Range Arena (LRA) benchmark, thus
narrowing the gap with these specialized layers. We identify that two key
principles for long-range tasks are (i) incorporating an inductive bias towards
smoothness, and (ii) locality. As we show, integrating these ideas into the
attention mechanism improves results with a negligible amount of additional
computation and without any additional trainable parameters. Our theory and
experiments also shed light on the reasons for the inferior performance of
transformers on long-range tasks and identify critical properties that are
essential for successfully capturing long-range dependencies.
- Abstract(参考訳): 現代のDLや、特にNLPドメインにおいて支配的であるにもかかわらず、トランスフォーマーアーキテクチャは、この目的のために特別に設計された最近のレイヤと比較して、長距離タスクに準最適性能を示す。
本稿では,状態空間層,線形rnn層,大域畳み込み層といった長距離層の主要な特性から着想を得て,トランスフォーマーアーキテクチャの最小限の変更が,long range arena (lra)ベンチマークの性能を著しく向上させ,これらの特殊な層とのギャップを狭めることを実証する。
長距離タスクの2つの重要な原則は
(i)滑らかさに対する帰納的バイアスを取り入れ、
(二)地域性。
私たちが示すように、これらのアイデアをアテンションメカニズムに統合することで、追加の計算量と追加のトレーニング可能なパラメータなしで結果が向上する。
我々の理論と実験は、長距離タスクにおけるトランスフォーマーの性能が劣る理由にも光を当て、長距離依存関係の取得に不可欠な重要な特性を特定した。
関連論文リスト
- Towards a Deeper Understanding of Transformer for Residential Non-intrusive Load Monitoring [0.0]
本研究では, 注目層内の隠れ次元数, 注目層数, 注目頭部数, 落下率が変圧器性能に及ぼす影響について検討した。
この研究は、より堅牢で有能なトランスフォーマーモデルの研究と開発のための基盤となることが期待されている。
論文 参考訳(メタデータ) (2024-10-02T09:14:50Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Bidirectional Long-Range Parser for Sequential Data Understanding [3.76054468268713]
BLRP(Bidirectional Long-Range)は,長距離タスクの性能向上と効率向上を目的とした,新規で汎用的なアテンション機構である。
我々は、最先端の手法に対する競争結果を示すことによって、ビジョンと言語ドメインに対するアプローチの利点と汎用性を示す。
論文 参考訳(メタデータ) (2024-04-08T05:45:03Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - LSG Attention: Extrapolation of pretrained Transformers to long
sequences [0.0]
ローカル・スパース・グローバル・アテンションに依存したLSGアーキテクチャを導入する。
長文の分類と要約作業においてLSGの注意は高速で効率的で競争力があることを示す。
我々は新しいモデルをトレーニングし、このメカニズムに基づいて既存のモデルを適応するためのツールを提案する。
論文 参考訳(メタデータ) (2022-10-13T13:10:41Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - The NLP Task Effectiveness of Long-Range Transformers [38.46467445144777]
トランスフォーマーモデルは、O(N2)時間と空間の複雑さのため、容易に長い列にスケールできない。
5つの困難なNLPタスクと7つのデータセットに対して、Transformerモデルの7つの変種をベンチマークする。
長い範囲のトランスフォーマーの注意は、コンテンツ選択とクエリ誘導デコードに利点があるが、以前は認識されていなかった欠点が伴っている。
論文 参考訳(メタデータ) (2022-02-16T04:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。