論文の概要: Not all parameters are born equal: Attention is mostly what you need
- arxiv url: http://arxiv.org/abs/2010.11859v2
- Date: Tue, 21 Sep 2021 13:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 06:40:30.477274
- Title: Not all parameters are born equal: Attention is mostly what you need
- Title(参考訳): すべてのパラメータが平等に生まれているわけではない。
- Authors: Nikolay Bogoychev
- Abstract要約: 我々は、埋め込み、注意、フィードフォワードニューラルネットワーク(FFN)の3つのパラメータ群について検討する。
我々は、注意とFFNが等しく重要であり、モデル内の同じ機能を満たすことを示す。
埋め込み層は機械翻訳タスクには不可欠ではないが、言語モデリングタスクでは最も重要なコンポーネントである。
- 参考スコア(独自算出の注目度): 9.15791577645719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are widely used in state-of-the-art machine translation, but the
key to their success is still unknown. To gain insight into this, we consider
three groups of parameters: embeddings, attention, and feed forward neural
network (FFN) layers. We examine the relative importance of each by performing
an ablation study where we initialise them at random and freeze them, so that
their weights do not change over the course of the training. Through this, we
show that the attention and FFN are equally important and fulfil the same
functionality in a model. We show that the decision about whether a component
is frozen or allowed to train is at least as important for the final model
performance as its number of parameters. At the same time, the number of
parameters alone is not indicative of a component's importance. Finally, while
the embedding layer is the least essential for machine translation tasks, it is
the most important component for language modelling tasks.
- Abstract(参考訳): トランスフォーマーは最先端の機械翻訳で広く使われているが、その成功の鍵はまだ不明である。
これに対する洞察を得るために、埋め込み、注意、フィードフォワードニューラルネットワーク(FFN)レイヤという3つのパラメータのグループを検討します。
本研究は,無作為に初期化して凍結させるアブレーション研究を行い,トレーニングの過程で重みが変化しないよう,それぞれの相対的重要性について検討する。
これにより、注目度とFFNが等しく重要であり、モデル内の同じ機能を満たすことを示す。
我々は,コンポーネントが凍結するか,トレーニングが許されるかの決定が,パラメータの数と同じくらい,最終的なモデル性能にとって少なくとも重要であることを示す。
同時に、パラメータの数だけでは、コンポーネントの重要性を示すものではありません。
最後に、組み込み層は機械翻訳タスクにとって最も必須でないが、言語モデリングタスクにとって最も重要なコンポーネントである。
関連論文リスト
- Stanceformer: Target-Aware Transformer for Stance Detection [59.69858080492586]
スタンス検出は、テキストで表現されたスタンスを特定の主題やターゲットに向けて識別する。
以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。
本稿では,学習と推論の両方において,目標に対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:24:28Z) - LM Transparency Tool: Interactive Tool for Analyzing Transformer Language Models [10.452149013566157]
LM Transparency Tool (LM-TT) は、トランスフォーマーベースの言語モデルの内部動作を分析するためのオープンソースのインタラクティブツールキットである。
インプット・トゥ・アウトプット・インフォメーション・フロー全体の重要な部分を示す。
論文 参考訳(メタデータ) (2024-04-10T13:39:11Z) - Only 5\% Attention Is All You Need: Efficient Long-range Document-level
Neural Machine Translation [70.87670058323239]
文書レベルの文脈情報を導入することにより,談話現象を扱う上で,文書レベルのニューラルネットワーク翻訳(DocNMT)が重要であることが証明されている。
最も重要な方向の1つは、ドキュメント全体を標準のTransformerモデルに直接入力することである。
本研究は,少量のトークンを選択する軽量注意に基づく追加の選択層を導入することにより,翻訳性能を20%向上させながら維持する。
論文 参考訳(メタデータ) (2023-09-25T14:33:47Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - DeepCuts: Single-Shot Interpretability based Pruning for BERT [0.0]
我々のスコアリング関数は、より関連するタスクベースのスコアをネットワークパラメータに割り当てることができることを示す。
また、プルーニングマスクを解析した結果、標準的な測定値から得られたマスクとは大きく異なることがわかった。
論文 参考訳(メタデータ) (2022-12-27T07:21:41Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Communication-Efficient Federated Learning for Neural Machine
Translation [1.5362025549031046]
フェデレートラーニング(FL)設定におけるニューラルネットワーク翻訳(NMT)モデルの訓練は、計算的にも通信的にも非効率である可能性がある。
本稿では,新しいソリューションを提案することにより,FLセットアップでNMTモデルを効率的に構築する方法を検討する。
通信オーバーヘッドを低減するために、すべてのニューラルネットワーク層のうち、私たちが"コントローラ"層と呼ぶものだけを交換します。
論文 参考訳(メタデータ) (2021-12-12T03:16:03Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。