論文の概要: SparseBERT: Rethinking the Importance Analysis in Self-attention
- arxiv url: http://arxiv.org/abs/2102.12871v1
- Date: Thu, 25 Feb 2021 14:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 13:47:37.519299
- Title: SparseBERT: Rethinking the Importance Analysis in Self-attention
- Title(参考訳): SparseBERT: 自己意識における重要度分析の再考
- Authors: Han Shi, Jiahui Gao, Xiaozhe Ren, Hang Xu, Xiaodan Liang, Zhenguo Li,
James T. Kwok
- Abstract要約: トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 107.68072039537311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models are popular for natural language processing (NLP)
tasks due to its powerful capacity. As the core component, self-attention
module has aroused widespread interests. Attention map visualization of a
pre-trained model is one direct method for understanding self-attention
mechanism and some common patterns are observed in visualization. Based on
these patterns, a series of efficient transformers are proposed with
corresponding sparse attention masks. Besides above empirical results,
universal approximability of Transformer-based models is also discovered from a
theoretical perspective. However, above understanding and analysis of
self-attention is based on a pre-trained model. To rethink the importance
analysis in self-attention, we delve into dynamics of attention matrix
importance during pre-training. One of surprising results is that the diagonal
elements in the attention map are the most unimportant compared with other
attention positions and we also provide a proof to show these elements can be
removed without damaging the model performance. Furthermore, we propose a
Differentiable Attention Mask (DAM) algorithm, which can be also applied in
guidance of SparseBERT design further. The extensive experiments verify our
interesting findings and illustrate the effect of our proposed algorithm.
- Abstract(参考訳): トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
コアコンポーネントであるセルフアテンションモジュールは、広く関心を集めている。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つであり,可視化に共通するパターンがいくつか見られる。
これらのパターンに基づき、対応するスパースアテンションマスクを用いた一連の効率的なトランスフォーマーが提案されている。
上記の実証結果に加えて、トランスフォーマーに基づくモデルの普遍的近似性も理論的観点から発見されている。
しかし、上記の自己意識の理解と分析は、事前学習されたモデルに基づいている。
自己注意における重要度分析を再考するために,事前学習中の注意行列の重要性のダイナミクスを考察する。
驚くべき結果の1つは,注意マップの対角要素が他の注意位置と比較して最も重要でないことであり,モデル性能を損なうことなくこれらの要素を除去できることを示す証拠を提供する。
さらに,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
広範な実験は、我々の興味深い発見を検証し、提案されたアルゴリズムの効果を示す。
関連論文リスト
- On Explaining with Attention Matrices [2.1178416840822027]
本稿では,変圧器モデルにおける注目重み(AW)と予測出力との説明的リンクについて検討する。
我々は,AWが説明的役割を果たすタスクやモデルにおいて,注意行列の有効成分を分離する,効率的な注意力を導入し,効果的に計算する。
論文 参考訳(メタデータ) (2024-10-24T08:43:33Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Noise-Free Explanation for Driving Action Prediction [11.330363757618379]
我々は, この欠陥を解消するための, 実装が容易だが効果的な方法を提案する: 平滑な騒音ノルム注意(SNNA)
変換された値ベクトルのノルムで注意を重み付け、アテンション勾配でラベル固有の信号を誘導し、入力摂動をランダムにサンプリングし、対応する勾配を平均化し、ノイズのない属性を生成する。
定性的かつ定量的な評価結果は、より明確な視覚的説明図を作成し、入力画素の重要度をランク付けする他のSOTA注意に基づく説明可能な方法と比較して、SNNAの優位性を示している。
論文 参考訳(メタデータ) (2024-07-08T19:21:24Z) - Unveiling and Controlling Anomalous Attention Distribution in Transformers [8.456319173083315]
ウェイバー現象は、要素が情報への貢献に影響を与えることなく過剰な注意を吸収することを可能にする。
特定のモデルでは、位置符号化と注意パターンの違いにより、モデルによるウェイブラー要素の選択は2つの方法に分類できることがわかった。
論文 参考訳(メタデータ) (2024-06-26T11:53:35Z) - Naturalness of Attention: Revisiting Attention in Code Language Models [3.756550107432323]
CodeBERTのようなコードの言語モデルは、高度なソースコード表現を学習する機能を提供するが、その不透明さは、取得したプロパティを理解する上で障壁となる。
本研究は、注意重みを超える注意機構のこれまで無視されていた要因について、いくつかの光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-11-22T16:34:12Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Effective Attention Sheds Light On Interpretability [3.317258557707008]
有効な注意を可視化することは、標準的な注意の解釈とは異なる結論を与えるかどうかを問う。
実効的な注意力は、言語モデリング事前学習に関連する特徴とあまり関連がないことを示す。
設計によって出力されるモデルに関係が深いため, 変圧器の挙動を研究する上で, 効果的な注意を払うことを推奨する。
論文 参考訳(メタデータ) (2021-05-18T23:41:26Z) - Input-independent Attention Weights Are Expressive Enough: A Study of
Attention in Self-supervised Audio Transformers [55.40032342541187]
我々は、自己教師付きアルゴリズムを用いたトランスフォーマーベースモデルを事前訓練し、下流タスクにおける特徴抽出器として扱う。
このアプローチでは、トレーニングと推論の両方において、通常の自己注意と同等のパフォーマンスで20%の時間を要することが示されています。
論文 参考訳(メタデータ) (2020-06-09T10:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。