論文の概要: Interpretation of the Transformer and Improvement of the Extractor
- arxiv url: http://arxiv.org/abs/2311.12678v1
- Date: Tue, 21 Nov 2023 15:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 00:03:59.836745
- Title: Interpretation of the Transformer and Improvement of the Extractor
- Title(参考訳): 変圧器の解釈とエクストラクタの改良
- Authors: Zhe Chen
- Abstract要約: Transformerアーキテクチャが実行されてから6年以上が経ちました。
驚いたことに、今日でもバニラトランスフォーマーアーキテクチャが広く使われている。
トランスフォーマーアーキテクチャの深い理解と包括的な解釈の欠如により、トランスフォーマーアーキテクチャを改善することがより困難になる。
- 参考スコア(独自算出の注目度): 3.9693969407364427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been over six years since the Transformer architecture was put
forward. Surprisingly, the vanilla Transformer architecture is still widely
used today. One reason is that the lack of deep understanding and comprehensive
interpretation of the Transformer architecture makes it more challenging to
improve the Transformer architecture. In this paper, we first interpret the
Transformer architecture comprehensively in plain words based on our
understanding and experiences. The interpretations are further proved and
verified. These interpretations also cover the Extractor, a family of drop-in
replacements for the multi-head self-attention in the Transformer architecture.
Then, we propose an improvement on a type of the Extractor that outperforms the
self-attention, without introducing additional trainable parameters.
Experimental results demonstrate that the improved Extractor performs even
better, showing a way to improve the Transformer architecture.
- Abstract(参考訳): Transformerアーキテクチャが実行されてから6年以上が経ちました。
驚いたことに、今日でもバニラトランスフォーマーアーキテクチャが広く使われている。
理由の1つは、トランスフォーマーアーキテクチャの深い理解と包括的解釈が欠如しているため、トランスフォーマーアーキテクチャを改善することがより困難である。
本稿では,その理解と経験に基づき,まず変圧器アーキテクチャを平易な言葉で包括的に解釈する。
解釈はさらに証明され、検証される。
これらの解釈は、トランスフォーマーアーキテクチャにおけるマルチヘッドセルフアテンションのドロップイン置換であるextractorもカバーしている。
そこで本研究では,トレーニング可能なパラメータを追加することなく,自己意図よりも優れたExtractorのタイプを提案する。
実験の結果,改良した抽出器の性能が向上し,トランスフォーマーアーキテクチャの改善方法が示された。
関連論文リスト
- What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis [8.008567379796666]
Transformerアーキテクチャは、間違いなくディープラーニングに革命をもたらした。
中心となる注意ブロックは、ディープラーニングにおける他のほとんどのアーキテクチャコンポーネントと形式と機能の違いです。
これらの外向きの表現の背後にある根本原因と、それらを管理する正確なメカニズムは、まだ理解されていないままである。
論文 参考訳(メタデータ) (2024-10-14T18:15:02Z) - Body Transformer: Leveraging Robot Embodiment for Policy Learning [51.531793239586165]
ボディートランスフォーマー(ボディートランスフォーマー、Body Transformer、BoT)は、学習プロセスを導く誘導バイアスを提供することで、ロボットの体現性を活用するアーキテクチャである。
我々はロボットの体をセンサーとアクチュエータのグラフとして表現し、建築全体を通してプール情報にマスキングされた注意を頼りにしている。
結果として得られるアーキテクチャは、バニラ変換器と古典的な多層パーセプトロンを、タスク完了、スケーリング特性、計算効率の点で上回る。
論文 参考訳(メタデータ) (2024-08-12T17:31:28Z) - On the Expressive Power of a Variant of the Looped Transformer [83.30272757948829]
我々はアルゴリズム能力でトランスフォーマーを強化するために、AlgoFormerと呼ばれる新しいトランスフォーマーブロックを設計する。
提案したAlgoFormerは、同じ数のパラメータを使用する場合、アルゴリズム表現においてはるかに高い精度を達成することができる。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーが、人間設計のアルゴリズムよりも賢い可能性があることを示している。
論文 参考訳(メタデータ) (2024-02-21T07:07:54Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Transformers in Time-series Analysis: A Tutorial [0.0]
トランスフォーマーアーキテクチャは、特に自然言語処理やコンピュータビジョンにおいて広く応用されている。
本チュートリアルでは、Transformerアーキテクチャ、その応用の概要と、時系列解析における最近の研究論文の例を紹介する。
論文 参考訳(メタデータ) (2022-04-28T05:17:45Z) - Transformer visualization via dictionary learning: contextualized
embedding as a linear superposition of transformer factors [15.348047288817478]
我々は,変圧器因子の線形重ね合わせとして,辞書学習を用いて「ブラックボックス」を開くことを提案する。
可視化により,変換因子によって得られた階層的意味構造を実演する。
この視覚化ツールによって、トランスフォーマーネットワークの動作に関するさらなる知識と理解が得られればと思っています。
論文 参考訳(メタデータ) (2021-03-29T20:51:33Z) - Do Transformer Modifications Transfer Across Implementations and
Applications? [52.09138231841911]
共用実験環境では,これらの修正の多くを総合的に評価する。
ほとんどの修正は、パフォーマンスを有意義に改善しない。
ほとんどの変圧器は、私たちが使ったものと同じか、比較的小さな変更で開発された。
論文 参考訳(メタデータ) (2021-02-23T22:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。