論文の概要: Attention Mechanism with Energy-Friendly Operations
- arxiv url: http://arxiv.org/abs/2204.13353v1
- Date: Thu, 28 Apr 2022 08:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 23:25:15.873833
- Title: Attention Mechanism with Energy-Friendly Operations
- Title(参考訳): エネルギーフレンドリー操作による注意機構
- Authors: Yu Wan, Baosong Yang, Dayiheng Liu, Rong Xiao, Derek F. Wong, Haibo
Zhang, Boxing Chen, Lidia S. Chao
- Abstract要約: 我々はエネルギー消費の観点から注意機構を再考する。
我々は、乗算を選択的操作または加算に置き換えることで、新しい注意モデルを構築する。
3つの機械翻訳タスクにおける実験結果から,提案手法が再現可能な精度を実現することを示す。
- 参考スコア(独自算出の注目度): 61.58748425876866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention mechanism has become the dominant module in natural language
processing models. It is computationally intensive and depends on massive
power-hungry multiplications. In this paper, we rethink variants of attention
mechanism from the energy consumption aspects. After reaching the conclusion
that the energy costs of several energy-friendly operations are far less than
their multiplication counterparts, we build a novel attention model by
replacing multiplications with either selective operations or additions.
Empirical results on three machine translation tasks demonstrate that the
proposed model, against the vanilla one, achieves competitable accuracy while
saving 99\% and 66\% energy during alignment calculation and the whole
attention procedure. Code is available at: https://github.com/NLP2CT/E-Att.
- Abstract(参考訳): 注意機構は自然言語処理モデルにおいて支配的なモジュールとなっている。
計算集約であり、巨大なパワーハングリー乗法に依存する。
本稿では,エネルギー消費の観点から注意機構の変種を再考する。
いくつかのエネルギーフレンドリーな演算のエネルギーコストが乗算よりもはるかに少ないという結論に達した後、選択的な演算や加算に乗算を置き換え、新しい注意モデルを構築した。
3つの機械翻訳タスクにおける実験結果は,提案モデルがバニラモデルに対して,アライメント計算とアライメント手順全体において99\%と66\%の省エネルギを節約しつつ,計算可能な精度を達成することを示した。
コードは、https://github.com/NLP2CT/E-Att.comで入手できる。
関連論文リスト
- FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - The Inhibitor: ReLU and Addition-Based Attention for Efficient
Transformers [0.0]
我々は、ドット生成物とソフトマックスに基づく注意を、加算とReLU活性化のみを含む別のメカニズムに置き換える。
これは行列乗法でしばしば必要とされる倍精度への拡張をサイドステップとし、コストのかかるソフトマックス評価を避ける。
より効率的な実行を可能にし、リソース制約のあるハードウェアや同型暗号のような代替の算術システム上で、より大きな量子化トランスフォーマーモデルをサポートする。
論文 参考訳(メタデータ) (2023-10-03T13:34:21Z) - On Feature Diversity in Energy-based Models [98.78384185493624]
エネルギーベースモデル(EBM)は通常、異なる特徴の組み合わせを学習し、入力構成ごとにエネルギーマッピングを生成する内部モデルによって構成される。
EBMのほぼ正しい(PAC)理論を拡張し,EBMの性能に及ぼす冗長性低減の影響を解析した。
論文 参考訳(メタデータ) (2023-06-02T12:30:42Z) - Energy Transformer [64.22957136952725]
我々の研究は、機械学習における有望な3つのパラダイム、すなわち注意機構、エネルギーベースモデル、連想記憶の側面を組み合わせる。
本稿では,エネルギー変換器(ET,Energy Transformer)と呼ばれる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-14T18:51:22Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - A Transistor Operations Model for Deep Learning Energy Consumption
Scaling [14.856688747814912]
深層学習(DL)は、幅広い産業の自動化を変革し、社会のユビキティを高めている。
DLモデルの複雑さの増大とその普及により、エネルギー消費は3~4ヶ月ごとに倍増した。
現在のFLOPとMACベースの手法は線形演算のみを考慮している。
DLモデル構成によるエネルギー消費のスケーリングにおける活性化関数とニューラルネットワーク構造の役割を明らかにするため,ボトムレベルトランジスタ操作(TOs)法を開発した。
論文 参考訳(メタデータ) (2022-05-30T12:42:33Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Is Attention All What You Need? -- An Empirical Investigation on
Convolution-Based Active Memory and Self-Attention [7.967230034960396]
各種能動記憶機構がトランスフォーマーの自己注意に取って代わるかどうかを評価する。
実験の結果、アクティブメモリだけで言語モデリングの自己認識機構に匹敵する結果が得られることが示唆された。
特定のアルゴリズムタスクでは、アクティブメモリメカニズムだけで、自己注意とこれら2つの組み合わせよりも優れています。
論文 参考訳(メタデータ) (2019-12-27T02:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。