論文の概要: Rethinking the Value of Transformer Components
- arxiv url: http://arxiv.org/abs/2011.03803v1
- Date: Sat, 7 Nov 2020 16:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:34:34.109188
- Title: Rethinking the Value of Transformer Components
- Title(参考訳): 変圧器部品の価値を再考する
- Authors: Wenxuan Wang and Zhaopeng Tu
- Abstract要約: トレーニングされたトランスフォーマーモデルにおける個々のコンポーネント(サブレイヤ)の影響を異なる視点から評価する。
学習において重要でないコンポーネントを識別することで翻訳性能を向上させる新しいトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 45.841272820008264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer becomes the state-of-the-art translation model, while it is not
well studied how each intermediate component contributes to the model
performance, which poses significant challenges for designing optimal
architectures. In this work, we bridge this gap by evaluating the impact of
individual component (sub-layer) in trained Transformer models from different
perspectives. Experimental results across language pairs, training strategies,
and model capacities show that certain components are consistently more
important than the others. We also report a number of interesting findings that
might help humans better analyze, understand and improve Transformer models.
Based on these observations, we further propose a new training strategy that
can improves translation performance by distinguishing the unimportant
components in training.
- Abstract(参考訳): トランスフォーマーは最先端の翻訳モデルとなるが、それぞれの中間コンポーネントがモデルの性能にどのように貢献するかはよく研究されていない。
本研究では、異なる視点からトレーニングされたTransformerモデルにおける個々のコンポーネント(サブレイヤ)の影響を評価することにより、このギャップを埋める。
言語ペア、トレーニング戦略、モデル能力に関する実験結果は、特定のコンポーネントが他のコンポーネントよりも一貫して重要であることを示している。
また,トランスフォーマーモデルの解析,理解,改善に役立つかもしれない興味深い知見を数多く報告した。
これらの結果に基づき, 学習中の重要でない要素を識別することにより, 翻訳性能を向上させる新しい学習戦略を提案する。
関連論文リスト
- How Truncating Weights Improves Reasoning in Language Models [49.80959223722325]
特定のグローバルな関連が、特定の重み成分やトランスフォーマーブロックにどのように格納されるかを検討する。
実験的にも理論的にも、トレーニング中にどのように起こるのかを分析します。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - Affine transformation estimation improves visual self-supervised
learning [4.40560654491339]
本研究では,アフィン変換の予測表現を制約するモジュールを追加することにより,学習プロセスの性能と効率が向上することを示す。
我々は、様々な近代的な自己監督モデルで実験を行い、全てのケースで性能改善を見る。
論文 参考訳(メタデータ) (2024-02-14T10:32:58Z) - A Meta-Learning Perspective on Transformers for Causal Language Modeling [17.293733942245154]
Transformerアーキテクチャは、大規模な因果言語モデルの開発において顕著になっている。
因果言語モデリングタスクのトレーニングにおいて,トランスフォーマーアーキテクチャのメタラーニングビューを確立する。
内部最適化では,Transformerに基づく因果言語モデルにおいて,学習トークン表現のノルムの特別な特徴を発見し,理論的に解析する。
論文 参考訳(メタデータ) (2023-10-09T17:27:36Z) - Demystify Transformers & Convolutions in Modern Image Deep Networks [82.32018252867277]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
各種課題の実験と帰納的バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-10T18:59:43Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。