論文の概要: Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2012.02030v2
- Date: Sat, 8 May 2021 23:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:48:07.186526
- Title: Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural
Networks
- Title(参考訳): 深部ニューラルネットワークの注意機構におけるデータインフォームドグローバルスパースネス
- Authors: Ileana Rugina, Rumen Dangovski, Li Jing, Preslav Nakov, Marin
Solja\v{c}i\'c
- Abstract要約: 本研究では,アテンション・プルーニング(Attention Pruning,AP)を提案する。これは,固定されたデータセットにおける注意パターンの観測を収集し,そのモデルに対するグローバルなスパースネスマスクを誘導するフレームワークである。
APは、言語モデリングの注意計算の90%を節約し、機械翻訳やGLUEタスクの約50%を処理し、結果の品質を維持している。
我々のフレームワークは原則として、アテンションメカニズムを使用するモデルなら何でもスピードアップできるので、既存のNLPアプリケーションや新しいNLPアプリケーションのためにより良いモデルを開発するのに役立ちます。
- 参考スコア(独自算出の注目度): 24.02184854949444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The attention mechanism is a key component of the neural revolution in
Natural Language Processing (NLP). As the size of attention-based models has
been scaling with the available computational resources, a number of pruning
techniques have been developed to detect and to exploit sparseness in such
models in order to make them more efficient. The majority of such efforts have
focused on looking for attention patterns and then hard-coding them to achieve
sparseness, or pruning the weights of the attention mechanisms based on
statistical information from the training data. Here, we marry these two lines
of research by proposing Attention Pruning (AP): a novel pruning framework that
collects observations about the attention patterns in a fixed dataset and then
induces a global sparseness mask for the model. This can save 90% of the
attention computation for language modelling and about 50% for machine
translation and for solving GLUE tasks, while maintaining the quality of the
results. Moreover, using our method, we discovered important distinctions
between self- and cross-attention patterns, which could guide future NLP
research in attention-based modelling. Our framework can in principle speed up
any model that uses attention mechanism, thus helping develop better models for
existing or for new NLP applications. Our implementation is available at
https://github.com/irugina/AP.
- Abstract(参考訳): 注意機構は自然言語処理(NLP)における神経革命の重要な要素である。
注目度に基づくモデルのサイズが利用可能な計算資源でスケールしているため、これらのモデルのスパース性をより効率的に検出し、活用するために多くのプルーニング技術が開発されている。
このような取り組みの大部分は、注意パターンを探し出し、それらをハードコーディングして疎度を達成したり、トレーニングデータから統計情報に基づいて注意機構の重み付けを行ったりすることに重点を置いている。
ここでは、固定されたデータセットにおける注意パターンの観察を収集し、そのモデルに対するグローバルなスパースネスマスクを誘導する新しいプルーニングフレームワークである、注意的プルーニング(AP)を提案することによって、これらの2つの研究の行を結婚する。
これにより、言語モデリングの注意の90%、機械翻訳の50%、グルータスクの解決の50%を削減し、結果の品質を維持することができる。
さらに,本手法を用いて,注意に基づくモデリングにおける今後のNLP研究を導くことができる自己認識パターンと横断注意パターンの区別について検討した。
我々のフレームワークは原則として、アテンションメカニズムを使用するモデルなら何でもスピードアップできるので、既存のNLPアプリケーションや新しいNLPアプリケーションのためにより良いモデルを開発するのに役立ちます。
私たちの実装はhttps://github.com/irugina/apで利用可能です。
関連論文リスト
- Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy [55.2480439325792]
我々は、シーケンス固有のモデルベースのオートエンコーダをトレーニングすることで、そのようなデータの必要性を軽減する、深層無学習の自己教師付き学習を導入する。
提案手法は, 監視対象の性能を超過する。
論文 参考訳(メタデータ) (2024-03-25T17:40:32Z) - Self-Supervised Implicit Attention: Guided Attention by The Model Itself [1.3406858660972554]
我々は、深層ニューラルネットワークモデルに適応的に誘導し、モデル自体の特性を活用する新しいアプローチである、自己監視インシシット注意(SSIA:Self-Supervised Implicit Attention)を提案する。
SSIAAは、推論中に余分なパラメータ、計算、メモリアクセスコストを必要としない新しいアテンションメカニズムである。
私たちの実装はGitHubで公開されます。
論文 参考訳(メタデータ) (2022-06-15T10:13:34Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z) - Cost-effective Interactive Attention Learning with Neural Attention
Processes [79.8115563067513]
対話型注意学習(Interactive Attention Learning, IAL)と呼ばれる対話型学習フレームワークを提案する。
IALは、人間のアノテーションが不足しているため、過度に適合する傾向がある。
我々は,サンプル効率のよい注意機構と,コスト効率のよいインスタンスと機能の再ランクアルゴリズムを提案することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2020-06-09T17:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。