論文の概要: Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2012.02030v2
- Date: Sat, 8 May 2021 23:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:48:07.186526
- Title: Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural
Networks
- Title(参考訳): 深部ニューラルネットワークの注意機構におけるデータインフォームドグローバルスパースネス
- Authors: Ileana Rugina, Rumen Dangovski, Li Jing, Preslav Nakov, Marin
Solja\v{c}i\'c
- Abstract要約: 本研究では,アテンション・プルーニング(Attention Pruning,AP)を提案する。これは,固定されたデータセットにおける注意パターンの観測を収集し,そのモデルに対するグローバルなスパースネスマスクを誘導するフレームワークである。
APは、言語モデリングの注意計算の90%を節約し、機械翻訳やGLUEタスクの約50%を処理し、結果の品質を維持している。
我々のフレームワークは原則として、アテンションメカニズムを使用するモデルなら何でもスピードアップできるので、既存のNLPアプリケーションや新しいNLPアプリケーションのためにより良いモデルを開発するのに役立ちます。
- 参考スコア(独自算出の注目度): 24.02184854949444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The attention mechanism is a key component of the neural revolution in
Natural Language Processing (NLP). As the size of attention-based models has
been scaling with the available computational resources, a number of pruning
techniques have been developed to detect and to exploit sparseness in such
models in order to make them more efficient. The majority of such efforts have
focused on looking for attention patterns and then hard-coding them to achieve
sparseness, or pruning the weights of the attention mechanisms based on
statistical information from the training data. Here, we marry these two lines
of research by proposing Attention Pruning (AP): a novel pruning framework that
collects observations about the attention patterns in a fixed dataset and then
induces a global sparseness mask for the model. This can save 90% of the
attention computation for language modelling and about 50% for machine
translation and for solving GLUE tasks, while maintaining the quality of the
results. Moreover, using our method, we discovered important distinctions
between self- and cross-attention patterns, which could guide future NLP
research in attention-based modelling. Our framework can in principle speed up
any model that uses attention mechanism, thus helping develop better models for
existing or for new NLP applications. Our implementation is available at
https://github.com/irugina/AP.
- Abstract(参考訳): 注意機構は自然言語処理(NLP)における神経革命の重要な要素である。
注目度に基づくモデルのサイズが利用可能な計算資源でスケールしているため、これらのモデルのスパース性をより効率的に検出し、活用するために多くのプルーニング技術が開発されている。
このような取り組みの大部分は、注意パターンを探し出し、それらをハードコーディングして疎度を達成したり、トレーニングデータから統計情報に基づいて注意機構の重み付けを行ったりすることに重点を置いている。
ここでは、固定されたデータセットにおける注意パターンの観察を収集し、そのモデルに対するグローバルなスパースネスマスクを誘導する新しいプルーニングフレームワークである、注意的プルーニング(AP)を提案することによって、これらの2つの研究の行を結婚する。
これにより、言語モデリングの注意の90%、機械翻訳の50%、グルータスクの解決の50%を削減し、結果の品質を維持することができる。
さらに,本手法を用いて,注意に基づくモデリングにおける今後のNLP研究を導くことができる自己認識パターンと横断注意パターンの区別について検討した。
我々のフレームワークは原則として、アテンションメカニズムを使用するモデルなら何でもスピードアップできるので、既存のNLPアプリケーションや新しいNLPアプリケーションのためにより良いモデルを開発するのに役立ちます。
私たちの実装はhttps://github.com/irugina/apで利用可能です。
関連論文リスト
- Neural Attention: Enhancing QKV Calculation in Self-Attention Mechanism
with Neural Networks [25.75678339426731]
本稿では,QKVを用いたニューラルネットワークの計算手法について検討する。
我々は、IWSLT 2017ドイツ語翻訳タスクデータセットの実験を行い、従来の手法で近似した。
また,Wikitext-103データセットを用いてRobertaモデルをトレーニングする際の優位性を示した。
論文 参考訳(メタデータ) (2023-10-17T17:06:26Z) - Uncovering the Hidden Cost of Model Compression [49.937417635812025]
視覚プロンプティング (VP) はコンピュータビジョンにおいて重要な伝達学習手法として登場した。
モデル間隔は視覚的プロンプトベース転送の性能に悪影響を及ぼす。
以上の結果から,疎度が下流視覚刺激モデルの校正に及ぼす影響が示唆された。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Mechanism of feature learning in deep fully connected networks and
kernel machines that recursively learn features [15.29093374895364]
我々は,ニューラルネットワークが勾配特徴を学習するメカニズムを同定し,特徴付ける。
私たちのアンザッツは、突発的な特徴の出現や単純さのバイアスなど、さまざまな深層学習現象に光を当てています。
この特徴学習機構の有効性を実証するため,古典的非機能学習モデルにおいて特徴学習を可能にする。
論文 参考訳(メタデータ) (2022-12-28T15:50:58Z) - Self-Supervised Implicit Attention: Guided Attention by The Model Itself [1.3406858660972554]
我々は、深層ニューラルネットワークモデルに適応的に誘導し、モデル自体の特性を活用する新しいアプローチである、自己監視インシシット注意(SSIA:Self-Supervised Implicit Attention)を提案する。
SSIAAは、推論中に余分なパラメータ、計算、メモリアクセスコストを必要としない新しいアテンションメカニズムである。
私たちの実装はGitHubで公開されます。
論文 参考訳(メタデータ) (2022-06-15T10:13:34Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z) - Cost-effective Interactive Attention Learning with Neural Attention
Processes [79.8115563067513]
対話型注意学習(Interactive Attention Learning, IAL)と呼ばれる対話型学習フレームワークを提案する。
IALは、人間のアノテーションが不足しているため、過度に適合する傾向がある。
我々は,サンプル効率のよい注意機構と,コスト効率のよいインスタンスと機能の再ランクアルゴリズムを提案することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2020-06-09T17:36:41Z) - Computation on Sparse Neural Networks: an Inspiration for Future
Hardware [20.131626638342706]
スパースニューラルネットワークの計算に関する研究の現状について述べる。
本稿では,重みパラメータの数とモデル構造に影響されるモデルの精度について論じる。
実際に複雑な問題に対して、重みが支配する領域において、大小のモデルを探索することはより有益であることを示す。
論文 参考訳(メタデータ) (2020-04-24T19:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。