Fugu-MT 論文翻訳(概要): Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural Networks

論文の概要: Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural Networks

arxiv url: http://arxiv.org/abs/2012.02030v2
Date: Sat, 8 May 2021 23:24:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-23 05:48:07.186526
Title: Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural Networks
Title（参考訳）: 深部ニューラルネットワークの注意機構におけるデータインフォームドグローバルスパースネス
Authors: Ileana Rugina, Rumen Dangovski, Li Jing, Preslav Nakov, Marin Solja\v{c}i\'c
Abstract要約: 本研究では,アテンション・プルーニング(Attention Pruning,AP)を提案する。これは,固定されたデータセットにおける注意パターンの観測を収集し,そのモデルに対するグローバルなスパースネスマスクを誘導するフレームワークである。 APは、言語モデリングの注意計算の90%を節約し、機械翻訳やGLUEタスクの約50%を処理し、結果の品質を維持している。我々のフレームワークは原則として、アテンションメカニズムを使用するモデルなら何でもスピードアップできるので、既存のNLPアプリケーションや新しいNLPアプリケーションのためにより良いモデルを開発するのに役立ちます。
参考スコア（独自算出の注目度）: 24.02184854949444
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The attention mechanism is a key component of the neural revolution in Natural Language Processing (NLP). As the size of attention-based models has been scaling with the available computational resources, a number of pruning techniques have been developed to detect and to exploit sparseness in such models in order to make them more efficient. The majority of such efforts have focused on looking for attention patterns and then hard-coding them to achieve sparseness, or pruning the weights of the attention mechanisms based on statistical information from the training data. Here, we marry these two lines of research by proposing Attention Pruning (AP): a novel pruning framework that collects observations about the attention patterns in a fixed dataset and then induces a global sparseness mask for the model. This can save 90% of the attention computation for language modelling and about 50% for machine translation and for solving GLUE tasks, while maintaining the quality of the results. Moreover, using our method, we discovered important distinctions between self- and cross-attention patterns, which could guide future NLP research in attention-based modelling. Our framework can in principle speed up any model that uses attention mechanism, thus helping develop better models for existing or for new NLP applications. Our implementation is available at https://github.com/irugina/AP.
Abstract（参考訳）: 注意機構は自然言語処理(NLP)における神経革命の重要な要素である。注目度に基づくモデルのサイズが利用可能な計算資源でスケールしているため、これらのモデルのスパース性をより効率的に検出し、活用するために多くのプルーニング技術が開発されている。このような取り組みの大部分は、注意パターンを探し出し、それらをハードコーディングして疎度を達成したり、トレーニングデータから統計情報に基づいて注意機構の重み付けを行ったりすることに重点を置いている。ここでは、固定されたデータセットにおける注意パターンの観察を収集し、そのモデルに対するグローバルなスパースネスマスクを誘導する新しいプルーニングフレームワークである、注意的プルーニング(AP)を提案することによって、これらの2つの研究の行を結婚する。これにより、言語モデリングの注意の90%、機械翻訳の50%、グルータスクの解決の50%を削減し、結果の品質を維持することができる。さらに,本手法を用いて,注意に基づくモデリングにおける今後のNLP研究を導くことができる自己認識パターンと横断注意パターンの区別について検討した。我々のフレームワークは原則として、アテンションメカニズムを使用するモデルなら何でもスピードアップできるので、既存のNLPアプリケーションや新しいNLPアプリケーションのためにより良いモデルを開発するのに役立ちます。私たちの実装はhttps://github.com/irugina/apで利用可能です。

関連論文リスト

FORCE: Feature-Oriented Representation with Clustering and Explanation [0.0]
SHAPに基づく教師付きディープラーニングフレームワークForceを提案する。ニューラルネットワークアーキテクチャにおけるSHAP値の2段階の使用に依存している。我々はForceが潜在機能とアテンションフレームワークを組み込まないネットワークと比較して、全体的なパフォーマンスを劇的に改善したことを示す。
論文参考訳（メタデータ） (2025-04-07T22:05:50Z)
Gating is Weighting: Understanding Gated Linear Attention through In-context Learning [48.90556054777393]
GLA(Gated Linear Attention)アーキテクチャには、MambaやRWKVといった競合モデルが含まれている。重み付きプレコンディショニング・グラディエント・ディフレクション(WPGD)アルゴリズムの一般クラスを多層GLAで実装可能であることを示す。穏やかな条件下では、一意の WPGD 解に対応する大域的最小値の存在と一意性(スケーリングまで)を確立する。
論文参考訳（メタデータ） (2025-04-06T00:37:36Z)
Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文参考訳（メタデータ） (2024-11-11T02:47:05Z)
Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T05:48:02Z)
Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文参考訳（メタデータ） (2024-09-20T07:41:47Z)
A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。 Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文参考訳（メタデータ） (2024-06-19T19:11:22Z)
Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy [55.2480439325792]
我々は、シーケンス固有のモデルベースのオートエンコーダをトレーニングすることで、そのようなデータの必要性を軽減する、深層無学習の自己教師付き学習を導入する。提案手法は, 監視対象の性能を超過する。
論文参考訳（メタデータ） (2024-03-25T17:40:32Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。 LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文参考訳（メタデータ） (2024-01-11T08:40:35Z)
Self-Supervised Implicit Attention: Guided Attention by The Model Itself [1.3406858660972554]
我々は、深層ニューラルネットワークモデルに適応的に誘導し、モデル自体の特性を活用する新しいアプローチである、自己監視インシシット注意(SSIA:Self-Supervised Implicit Attention)を提案する。 SSIAAは、推論中に余分なパラメータ、計算、メモリアクセスコストを必要としない新しいアテンションメカニズムである。私たちの実装はGitHubで公開されます。
論文参考訳（メタデータ） (2022-06-15T10:13:34Z)
Entity-Conditioned Question Generation for Robust Attention Distribution in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文参考訳（メタデータ） (2022-04-24T22:36:48Z)
Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-08T17:00:26Z)
Cost-effective Interactive Attention Learning with Neural Attention Processes [79.8115563067513]
対話型注意学習(Interactive Attention Learning, IAL)と呼ばれる対話型学習フレームワークを提案する。 IALは、人間のアノテーションが不足しているため、過度に適合する傾向がある。我々は,サンプル効率のよい注意機構と,コスト効率のよいインスタンスと機能の再ランクアルゴリズムを提案することで,これらの課題に対処する。
論文参考訳（メタデータ） (2020-06-09T17:36:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。