論文の概要: Which transformer architecture fits my data? A vocabulary bottleneck in
self-attention
- arxiv url: http://arxiv.org/abs/2105.03928v1
- Date: Sun, 9 May 2021 13:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 06:53:01.225192
- Title: Which transformer architecture fits my data? A vocabulary bottleneck in
self-attention
- Title(参考訳): どのトランスフォーマーアーキテクチャが私のデータに合うのか?
自己注意における語彙ボトルネック
- Authors: Noam Wies, Yoav Levine, Daniel Jannai, Amnon Shashua
- Abstract要約: トランスフォーマーアーキテクチャは多くのドメインでデファクトスタンダードになっている。
埋め込みランクネックは、トランスフォーマー表現性に対する自己保持幅の寄与を制限する。
我々は,このボトルネックの存在と,トランスフォーマーアーキテクチャの深さと幅の相互作用に与える影響を実証的に示す。
- 参考スコア(独自算出の注目度): 14.560617816407804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: After their successful debut in natural language processing, Transformer
architectures are now becoming the de-facto standard in many domains. An
obstacle for their deployment over new modalities is the architectural
configuration: the optimal depth-to-width ratio has been shown to dramatically
vary across data types (e.g., $10$x larger over images than over language). We
theoretically predict the existence of an embedding rank bottleneck that limits
the contribution of self-attention width to the Transformer expressivity. We
thus directly tie the input vocabulary size and rank to the optimal
depth-to-width ratio, since a small vocabulary size or rank dictates an added
advantage of depth over width. We empirically demonstrate the existence of this
bottleneck and its implications on the depth-to-width interplay of Transformer
architectures, linking the architecture variability across domains to the often
glossed-over usage of different vocabulary sizes or embedding ranks in
different domains. As an additional benefit, our rank bottlenecking framework
allows us to identify size redundancies of $25\%-50\%$ in leading NLP models
such as ALBERT and T5.
- Abstract(参考訳): 自然言語処理で成功を収めた後、Transformerアーキテクチャは今や多くのドメインでデファクトスタンダードになりつつある。
最適な深さと幅の比率は、データタイプによって劇的に異なる(例えば、言語よりも画像の方が10$x大きい)ことが示されている。
理論上,自己付着幅の寄与を制限する埋め込みランクボトルネックの存在をトランスフォーマクション表現率に理論的に予測する。
したがって,小語彙サイズやランクが幅に対して深さの利点を与えるため,入力語彙サイズとランクを最適な深さ対幅比に直接結びつける。
我々は、このボトルネックの存在とトランスフォーマーアーキテクチャの深さから幅への相互作用との関係を実証的に示し、ドメイン間のアーキテクチャの変動性と、異なる語彙サイズや異なるドメインへの埋め込みランクのしばしば光沢のある利用を結びつける。
さらなるメリットとして、ALBERTやT5といった主要なNLPモデルにおいて、ランクボトルネックフレームワークにより、サイズ冗長度が25\%-50\%$の識別が可能になる。
関連論文リスト
- What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis [8.008567379796666]
Transformerアーキテクチャは、間違いなくディープラーニングに革命をもたらした。
中心となる注意ブロックは、ディープラーニングにおける他のほとんどのアーキテクチャコンポーネントと形式と機能の違いです。
これらの外向きの表現の背後にある根本原因と、それらを管理する正確なメカニズムは、まだ理解されていないままである。
論文 参考訳(メタデータ) (2024-10-14T18:15:02Z) - DenseFormer: Enhancing Information Flow in Transformers via Depth Weighted Averaging [34.643717080240584]
我々はDenseFormerを提案する。DenseFormerは、モデルのサイズを増大させることなく、モデルの難易度を向上する標準アーキテクチャの簡単な修正である。
提案手法は,現在および過去の表現の重み付き平均を計算する,各変圧器ブロックの後の加算平均ステップに依存する。
実験によると、DenseFormerはよりデータ効率が高く、より深いトランスフォーマーモデルと同じ難易度に達する。
論文 参考訳(メタデータ) (2024-02-04T21:44:09Z) - Foundation Transformers [105.06915886136524]
我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。
本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
論文 参考訳(メタデータ) (2022-10-12T17:16:27Z) - Learning Multiscale Transformer Models for Sequence Generation [33.73729074207944]
単語境界情報と句レベルの事前知識に基づいて,スケール間の関係を確立することで,マルチスケールトランスフォーマーモデルを構築する。
特に、いくつかのテストセットにおいて、効率を犠牲にすることなく、強いベースラインに対して一貫したパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2022-06-19T07:28:54Z) - Keyword Transformer: A Self-Attention Model for Keyword Spotting [0.2578242050187029]
Keywords Transformer (KWT) は、事前トレーニングや追加データなしで、複数のタスクにわたる最先端のパフォーマンスを超える完全な自己意図型アーキテクチャである。
12コマンドと35コマンドのそれぞれ98.6%と97.7%の精度で、google speech commandデータセットに2つのベンチマークレコードを設定した。
論文 参考訳(メタデータ) (2021-04-01T21:15:30Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - Addressing Zero-Resource Domains Using Document-Level Context in Neural
Machine Translation [80.40677540516616]
ドメイン内の並列データが利用できない場合、文書レベルのコンテキストへのアクセスにより、ドメインの一般性をよりよくキャプチャできることを示す。
文書レベルのトランスフォーマーモデルとして,大きなコンテキストサイズを利用できる2つのモデルを提案する。
論文 参考訳(メタデータ) (2020-04-30T16:28:19Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。