Fugu-MT 論文翻訳(概要): On the Long Range Abilities of Transformers

論文の概要: On the Long Range Abilities of Transformers

arxiv url: http://arxiv.org/abs/2311.16620v1
Date: Tue, 28 Nov 2023 09:21:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 19:08:33.011296
Title: On the Long Range Abilities of Transformers
Title（参考訳）: 変圧器の長距離能力について
Authors: Itamar Zimerman, Lior Wolf
Abstract要約: トランスアーキテクチャの変更を最小限に抑えることで,Long Range Arenaベンチマークの性能を大幅に向上させることができることを示す。長距離タスクの2つの鍵となる原理(すなわち、滑らか性に対する帰納的バイアス)と局所性(すなわち、局所性)である。以下に示すように、これらのアイデアを注意機構に組み込むことで、追加の計算量や追加のトレーニング可能なパラメータなしで結果を改善することができる。
参考スコア（独自算出の注目度）: 69.3021852589771
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite their dominance in modern DL and, especially, NLP domains, transformer architectures exhibit sub-optimal performance on long-range tasks compared to recent layers that are specifically designed for this purpose. In this work, drawing inspiration from key attributes of long-range layers, such as state-space layers, linear RNN layers, and global convolution layers, we demonstrate that minimal modifications to the transformer architecture can significantly enhance performance on the Long Range Arena (LRA) benchmark, thus narrowing the gap with these specialized layers. We identify that two key principles for long-range tasks are (i) incorporating an inductive bias towards smoothness, and (ii) locality. As we show, integrating these ideas into the attention mechanism improves results with a negligible amount of additional computation and without any additional trainable parameters. Our theory and experiments also shed light on the reasons for the inferior performance of transformers on long-range tasks and identify critical properties that are essential for successfully capturing long-range dependencies.
Abstract（参考訳）: 現代のDLや、特にNLPドメインにおいて支配的であるにもかかわらず、トランスフォーマーアーキテクチャは、この目的のために特別に設計された最近のレイヤと比較して、長距離タスクに準最適性能を示す。本稿では,状態空間層,線形rnn層,大域畳み込み層といった長距離層の主要な特性から着想を得て,トランスフォーマーアーキテクチャの最小限の変更が,long range arena (lra)ベンチマークの性能を著しく向上させ,これらの特殊な層とのギャップを狭めることを実証する。長距離タスクの2つの重要な原則は (i)滑らかさに対する帰納的バイアスを取り入れ、 (二)地域性。私たちが示すように、これらのアイデアをアテンションメカニズムに統合することで、追加の計算量と追加のトレーニング可能なパラメータなしで結果が向上する。我々の理論と実験は、長距離タスクにおけるトランスフォーマーの性能が劣る理由にも光を当て、長距離依存関係の取得に不可欠な重要な特性を特定した。

関連論文リスト

The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs [40.35884943268004]
非常に長いシーケンスでは、より大きくスパースなモデルの方が小さくて密度の高いモデルよりも好ましいことを示す。タスクやフェーズをまたいでベストを尽くす明確な戦略は存在しません。本研究は, 厳密な注意を喚起するための新しいスケーリング法を導入し, 検証し, 実験範囲を超えている可能性が示唆された。
論文参考訳（メタデータ） (2025-04-24T17:39:25Z)
On the locality bias and results in the Long Range Arena [49.15148871877941]
Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。 LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
論文参考訳（メタデータ） (2025-01-24T15:34:50Z)
Towards a Deeper Understanding of Transformer for Residential Non-intrusive Load Monitoring [0.0]
本研究では, 注目層内の隠れ次元数, 注目層数, 注目頭部数, 落下率が変圧器性能に及ぼす影響について検討した。この研究は、より堅牢で有能なトランスフォーマーモデルの研究と開発のための基盤となることが期待されている。
論文参考訳（メタデータ） (2024-10-02T09:14:50Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。 SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文参考訳（メタデータ） (2024-06-17T07:24:38Z)
Bidirectional Long-Range Parser for Sequential Data Understanding [3.76054468268713]
BLRP(Bidirectional Long-Range)は,長距離タスクの性能向上と効率向上を目的とした,新規で汎用的なアテンション機構である。我々は、最先端の手法に対する競争結果を示すことによって、ビジョンと言語ドメインに対するアプローチの利点と汎用性を示す。
論文参考訳（メタデータ） (2024-04-08T05:45:03Z)
2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。多次元状態空間モデルの表現的変動を利用する。本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文参考訳（メタデータ） (2023-06-11T09:41:37Z)
LSG Attention: Extrapolation of pretrained Transformers to long sequences [0.0]
ローカル・スパース・グローバル・アテンションに依存したLSGアーキテクチャを導入する。長文の分類と要約作業においてLSGの注意は高速で効率的で競争力があることを示す。我々は新しいモデルをトレーニングし、このメカニズムに基づいて既存のモデルを適応するためのツールを提案する。
論文参考訳（メタデータ） (2022-10-13T13:10:41Z)
FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。 3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文参考訳（メタデータ） (2022-03-24T07:26:29Z)
Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文参考訳（メタデータ） (2022-03-15T06:52:25Z)
The NLP Task Effectiveness of Long-Range Transformers [38.46467445144777]
トランスフォーマーモデルは、O(N2)時間と空間の複雑さのため、容易に長い列にスケールできない。 5つの困難なNLPタスクと7つのデータセットに対して、Transformerモデルの7つの変種をベンチマークする。長い範囲のトランスフォーマーの注意は、コンテンツ選択とクエリ誘導デコードに利点があるが、以前は認識されていなかった欠点が伴っている。
論文参考訳（メタデータ） (2022-02-16T04:39:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。