論文の概要: Dissecting Lottery Ticket Transformers: Structural and Behavioral Study
of Sparse Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2009.13270v2
- Date: Mon, 12 Oct 2020 18:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 07:58:22.004375
- Title: Dissecting Lottery Ticket Transformers: Structural and Behavioral Study
of Sparse Neural Machine Translation
- Title(参考訳): 解離性ロテリチップ変換器:スパースニューラルマシン翻訳の構造と挙動に関する研究
- Authors: Rajiv Movva, Jason Y. Zhao
- Abstract要約: 抽選券仮説に関する最近の研究は、BLEUを維持しながら、NTTのために非常にスパースなトランスフォーマーを生み出している。
より低マグニチュード重みを持つトランスフォーマーを探索することにより、複雑なセマンティック情報が最初に分解されることが分かる。
内部の活性化の解析により、高い層はプルーニングの過程で最も分散し、密度の高い層よりも徐々に複雑になることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work on the lottery ticket hypothesis has produced highly sparse
Transformers for NMT while maintaining BLEU. However, it is unclear how such
pruning techniques affect a model's learned representations. By probing
Transformers with more and more low-magnitude weights pruned away, we find that
complex semantic information is first to be degraded. Analysis of internal
activations reveals that higher layers diverge most over the course of pruning,
gradually becoming less complex than their dense counterparts. Meanwhile, early
layers of sparse models begin to perform more encoding. Attention mechanisms
remain remarkably consistent as sparsity increases.
- Abstract(参考訳): 抽選券仮説に関する最近の研究は、bleuを維持しながら、nmt用の非常にスパースなトランスフォーマーを生み出している。
しかし、そのような刈り取り技術がモデルの学習した表現にどのように影響するかは不明である。
より低マグニチュード重みを持つトランスフォーマーを探索することにより、複雑なセマンティック情報が最初に分解されることが分かる。
内部の活性化の解析により、高い層はプルーニングの過程で最も分散し、密度の高い層よりも徐々に複雑になることが明らかとなった。
一方、スパースモデルの初期の層はよりエンコーディングを行うようになる。
散発性が増すにつれて、注意のメカニズムは著しく一貫している。
関連論文リスト
- Why "classic" Transformers are shallow and how to make them go deep [4.520356456308492]
Transformerの主なイノベーションは、コンテキスト情報をキャプチャするセルフアテンションメカニズムである。
オリジナルのTransformerのデザインを、より深みのあるモデルに拡張することは、非常に難しいことが判明した。
本研究は,SA機構を明示的にあるいは暗黙的に低下させる既存のアプローチとは対照的に,外科的に過剰な類似性を除去する新たな戦略を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:49:16Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - JoMA: Demystifying Multilayer Transformers via JOint Dynamics of MLP and
Attention [38.9279012678065]
複数層トランスのトレーニング手順を理解するために,JoMA(Joon/Attention)ダイナミクスを提案する。
JoMAは、最初に注意が粗くなり(正則なトークンを学ぶために)、次に非線形なアクティベーションの存在下で(より正則なトークンを学ぶために)密集する、と予測する。
入力トークンが潜在階層生成モデルによって生成されるとき、JoMAを利用してトークンを定性的に組み合わせて多層トランスフォーマーの階層を形成する方法について説明する。
論文 参考訳(メタデータ) (2023-10-01T01:21:35Z) - HyPe: Better Pre-trained Language Model Fine-tuning with Hidden
Representation Perturbation [50.90457644954857]
トランスフォーマー層を隠蔽した表現を摂動することで問題を緩和する,シンプルで効果的な微調整手法であるHyPeを提案する。
我々はGLUEや他の自然言語推論データセットに関する広範な実験と分析を行う。
その結果,HyPeはバニラ微調整より優れ,異なる層からの隠蔽表現の一般化が促進されることがわかった。
論文 参考訳(メタデータ) (2022-12-17T11:56:21Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Transformers from an Optimization Perspective [24.78739299952529]
本研究では,トランスフォーマーモデルに基づくエネルギー関数の探索問題について検討する。
このような関数を見つけることで、解釈可能な最適化プロセスの展開として変換器を再解釈することができる。
この研究はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
論文 参考訳(メタデータ) (2022-05-27T10:45:15Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。