論文の概要: Dissecting Lottery Ticket Transformers: Structural and Behavioral Study
of Sparse Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2009.13270v2
- Date: Mon, 12 Oct 2020 18:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 07:58:22.004375
- Title: Dissecting Lottery Ticket Transformers: Structural and Behavioral Study
of Sparse Neural Machine Translation
- Title(参考訳): 解離性ロテリチップ変換器:スパースニューラルマシン翻訳の構造と挙動に関する研究
- Authors: Rajiv Movva, Jason Y. Zhao
- Abstract要約: 抽選券仮説に関する最近の研究は、BLEUを維持しながら、NTTのために非常にスパースなトランスフォーマーを生み出している。
より低マグニチュード重みを持つトランスフォーマーを探索することにより、複雑なセマンティック情報が最初に分解されることが分かる。
内部の活性化の解析により、高い層はプルーニングの過程で最も分散し、密度の高い層よりも徐々に複雑になることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work on the lottery ticket hypothesis has produced highly sparse
Transformers for NMT while maintaining BLEU. However, it is unclear how such
pruning techniques affect a model's learned representations. By probing
Transformers with more and more low-magnitude weights pruned away, we find that
complex semantic information is first to be degraded. Analysis of internal
activations reveals that higher layers diverge most over the course of pruning,
gradually becoming less complex than their dense counterparts. Meanwhile, early
layers of sparse models begin to perform more encoding. Attention mechanisms
remain remarkably consistent as sparsity increases.
- Abstract(参考訳): 抽選券仮説に関する最近の研究は、bleuを維持しながら、nmt用の非常にスパースなトランスフォーマーを生み出している。
しかし、そのような刈り取り技術がモデルの学習した表現にどのように影響するかは不明である。
より低マグニチュード重みを持つトランスフォーマーを探索することにより、複雑なセマンティック情報が最初に分解されることが分かる。
内部の活性化の解析により、高い層はプルーニングの過程で最も分散し、密度の高い層よりも徐々に複雑になることが明らかとなった。
一方、スパースモデルの初期の層はよりエンコーディングを行うようになる。
散発性が増すにつれて、注意のメカニズムは著しく一貫している。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Transformer Layers as Painters [16.43731831488477]
事前学習したトランスの下位層と最終層は中間層と異なるが,中間層は驚くほど均一であることを示す。
また、いくつかの問題のクラスは、レイヤのスキップ、レイヤのトレーニング方法と異なる順序での実行、レイヤの並列実行に対して堅牢性が必要であることも示しています。
我々の観察では、凍結した事前学習モデルでさえ、レイヤをスキップしたり、並列にレイヤを走らせることで、遅延の正確さを優雅に交換できる可能性が示唆されている。
論文 参考訳(メタデータ) (2024-07-12T14:31:05Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Why "classic" Transformers are shallow and how to make them go deep [4.520356456308492]
Transformerの主なイノベーションは、コンテキスト情報をキャプチャするセルフアテンションメカニズムである。
オリジナルのTransformerのデザインを、より深みのあるモデルに拡張することは、非常に難しいことが判明した。
本研究は,SA機構を明示的にあるいは暗黙的に低下させる既存のアプローチとは対照的に,外科的に過剰な類似性を除去する新たな戦略を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:49:16Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。