Fugu-MT 論文翻訳(概要): Differentiable Subset Pruning of Transformer Heads

論文の概要: Differentiable Subset Pruning of Transformer Heads

arxiv url: http://arxiv.org/abs/2108.04657v1
Date: Tue, 10 Aug 2021 13:08:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-11 14:26:08.893988
Title: Differentiable Subset Pruning of Transformer Heads
Title（参考訳）: 変圧器ヘッドの可変サブセットプルーニング
Authors: Jiaoda Li, Ryan Cotterell, Mrinmaya Sachan
Abstract要約: 近年の研究では、トランスフォーマーのマルチヘッドアテンション機構のヘッドの大部分を、モデルの性能を著しく損なうことなく安全に切断できることが示されている。我々の研究は、微分可能なサブセットプルーニングと呼ばれる新しいヘッドプルーニング技術を導入している。
参考スコア（独自算出の注目度）: 49.19222084013854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-head attention, a collection of several attention mechanisms that independently attend to different parts of the input, is the key ingredient in the Transformer (Vaswaniet al., 2017). Recent work has shown, however, that a large proportion of the heads in a Transformer's multi-head attention mechanism can be safely pruned away without significantly harming the performance of the model; such pruning leads to models that are noticeably smaller and faster in practice. Our work introduces a new head pruning technique that we term differentiable subset pruning. Intuitively, our method learns per-head importance variables and then enforces a user-specified hard constraint on the number of unpruned heads. The importance variables are learned via stochastic gradient descent. We conduct experiments on natural language inference and machine translation; we show that differentiable subset pruning performs comparably or better than Voita et al. (2019) while offering the same exact control over the number of heads as Michel et al. (2019).
Abstract（参考訳）: 入力の異なる部分に独立して関与する複数の注意機構の集合であるマルチヘッドアテンションがトランスフォーマーの重要な要素である(Vaswaniet al., 2017)。しかし、近年の研究では、トランスフォーマーのマルチヘッドアテンション機構におけるヘッドの大部分が、モデルの性能を著しく損なうことなく安全にプルーピングできることが示されている。我々の研究は、微分可能なサブセットプルーニングと呼ばれる新しいヘッドプルーニング技術を導入している。直観的には頭毎重要度変数を学習し、ユーザが指定した頭数に対するハード制約を強制する。重要性変数は確率勾配降下によって学習される。自然言語の推論と機械翻訳に関する実験を行い、Voitaらと同等かそれ以上に異なるサブセットプルーニングを行うことを示す。 (2019) ミシェルらと同じ数の頭部を正確に制御した。 (2019).

関連論文リスト

Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。 Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文参考訳（メタデータ） (2024-10-07T17:57:38Z)
How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression [19.64743851296488]
本研究では、疎線形回帰問題を考察し、訓練されたマルチヘッドトランスがコンテキスト内学習を行う方法を検討する。マルチヘッドの利用は層間における異なるパターンを示すことが実験的に明らかになった。このような前処理列最適化アルゴリズムは、直交勾配勾配とリッジ回帰アルゴリズムを大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-08-08T15:33:02Z)
Multiformer: A Head-Configurable Transformer-Based Model for Direct Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文参考訳（メタデータ） (2022-05-14T17:37:47Z)
Multi-head or Single-head? An Empirical Comparison for Transformer Training [62.272657851060465]
マルチヘッドアテンションは、最近のTransformerモデルの成功において重要な役割を担っている。複数のポジションに共同で出席することは、多面的注意のユニークな特徴ではないことを示す。近年のディープラーニングの進歩により、384層トランスのトレーニングを安定させることに成功した。
論文参考訳（メタデータ） (2021-06-17T16:53:22Z)
Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文参考訳（メタデータ） (2021-04-14T17:52:38Z)
Fixed Encoder Self-Attention Patterns in Transformer-Based Machine Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文参考訳（メタデータ） (2020-02-24T13:53:06Z)
Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文参考訳（メタデータ） (2020-02-17T16:16:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。