論文の概要: CAB: Comprehensive Attention Benchmarking on Long Sequence Modeling
- arxiv url: http://arxiv.org/abs/2210.07661v1
- Date: Fri, 14 Oct 2022 09:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 17:19:00.017889
- Title: CAB: Comprehensive Attention Benchmarking on Long Sequence Modeling
- Title(参考訳): cab:long sequence modelingの総合的注意ベンチマーク
- Authors: Jun Zhang, Shuyang Jiang, Jiangtao Feng, Lin Zheng, Lingpeng Kong
- Abstract要約: 包括的注意ベンチマーク(英語: Comprehensive Attention Benchmark、CAB)は4つの注意パターンを持つ微粒な注意分類である。
CABは4つの注意パターンの下で効果的な注意力を評価するために、現実世界の7つのタスクを収集する。
広範に利用されている9つの効率的な注意アーキテクチャのパフォーマンスをベンチマークするために、徹底的な実験を行う。
- 参考スコア(独自算出の注目度): 14.305838554936013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has achieved remarkable success in language, image, and speech
processing. Recently, various efficient attention architectures have been
proposed to improve transformer's efficiency while largely preserving its
efficacy, especially in modeling long sequences. A widely-used benchmark to
test these efficient methods' capability on long-range modeling is Long Range
Arena (LRA). However, LRA only focuses on the standard bidirectional (or
noncausal) self attention, and completely ignores cross attentions and
unidirectional (or causal) attentions, which are equally important to
downstream applications. Although designing cross and causal variants of an
attention method is straightforward for vanilla attention, it is often
challenging for efficient attentions with subquadratic time and memory
complexity. In this paper, we propose Comprehensive Attention Benchmark (CAB)
under a fine-grained attention taxonomy with four distinguishable attention
patterns, namely, noncausal self, causal self, noncausal cross, and causal
cross attentions. CAB collects seven real-world tasks from different research
areas to evaluate efficient attentions under the four attention patterns. Among
these tasks, CAB validates efficient attentions in eight backbone networks to
show their generalization across neural architectures. We conduct exhaustive
experiments to benchmark the performances of nine widely-used efficient
attention architectures designed with different philosophies on CAB. Extensive
experimental results also shed light on the fundamental problems of efficient
attentions, such as efficiency length against vanilla attention, performance
consistency across attention patterns, the benefit of attention mechanisms, and
interpolation/extrapolation on long-context language modeling.
- Abstract(参考訳): トランスフォーマーは、言語、画像、音声処理で顕著な成功を収めた。
近年,特に長周期のモデリングにおいて,変圧器の効率を向上し,その有効性を保ちつつ,様々な効率的な注目アーキテクチャが提案されている。
長距離モデリングにおいてこれらの効率的な手法の能力をテストするために広く利用されているベンチマークはLong Range Arena (LRA)である。
しかし、LRAは標準的な双方向(または非因果的)自己注意のみに焦点を当てており、下流アプリケーションでも同じように重要であるクロスアテンションや一方向(または因果的)の注意を完全に無視している。
注意方法の横断的および因果的変異を設計することは、バニラ的注意にとって容易であるが、二次的時間とメモリの複雑さを伴う効率的な注意にとって、しばしば困難である。
本稿では,非因果的自己,因果的自己,非因果的クロス,因果的横断的注意という4つの区別可能な注意パターンを持つ,細粒度注意分類法の下での包括的注意度ベンチマーク(cab)を提案する。
CABは、異なる研究領域から7つの現実世界のタスクを収集し、4つの注意パターンの下で効率的な注意力を評価する。
これらのタスクのうち、cabは8つのバックボーンネットワークの効率的な注意を検証し、ニューラルネットワーク全体の一般化を示す。
我々は,cab上で異なる哲学を持つ9つの高効率アテンションアーキテクチャの性能をベンチマークするために,徹底的な実験を行う。
また,バニラの注意に対する効率長,注意パターン間の性能の整合性,注意機構の利点,長文言語モデリングにおける補間・外挿といった,効率的な注意の基本的な問題にも光を当てた。
関連論文リスト
- Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。
埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。
本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:45:15Z) - Interactive Multi-Head Self-Attention with Linear Complexity [60.112941134420204]
本研究では,アテンション行列のクロスヘッド間相互作用により,アテンション操作の情報フローが向上することを示す。
本稿では,アテンション操作をクエリとキーレスコンポーネントに分解する効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:47:23Z) - SCCA: Shifted Cross Chunk Attention for long contextual semantic
expansion [1.0279748604797911]
我々は、異なるKVシフト戦略を用いて、各注目層内の各フィールドを拡張するシフトされたクロスチャンク注意(SCCA)を提示する。
SCCAの異なるパターンとSCCAとSDAの組み合わせを用いた言語モデリング実験を行った。
SCCA は大規模言語モデル (LLM) をもっと長い文脈に拡張し、Placeal (PI) や LoRA と組み合わせることができる。
論文 参考訳(メタデータ) (2023-12-12T14:24:54Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Switchable Self-attention Module [3.8992324495848356]
自己注意モジュールSEMを提案する。
SEMは、アテンションモジュールと代替アテンション演算子の入力情報に基づいて、自動的にアテンション演算子を選択し、統合してアテンションマップを計算することができる。
SEMの有効性は、広く使われているベンチマークデータセットと一般的な自己注意ネットワークに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2022-09-13T01:19:38Z) - Learning Self-Modulating Attention in Continuous Time Space with
Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。
提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2022-03-30T03:54:11Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。