論文の概要: Mitigating Over-smoothing in Transformers via Regularized Nonlocal
Functionals
- arxiv url: http://arxiv.org/abs/2312.00751v1
- Date: Fri, 1 Dec 2023 17:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 13:33:37.529207
- Title: Mitigating Over-smoothing in Transformers via Regularized Nonlocal
Functionals
- Title(参考訳): 正規化非局所関数による変圧器のオーバースムーシングの緩和
- Authors: Tam Nguyen, Tan M. Nguyen, Richard G. Baraniuk
- Abstract要約: 変圧器の自己保持層は, 平滑化を促進する機能を最小限に抑え, トークンの均一性をもたらすことを示す。
本稿では, 自己注意からのスムーズな出力トークンと入力トークンとの差分を正規化して, トークンの忠実性を維持するための新たな正規化器を提案する。
我々は,トークン表現の過度な平滑化を低減するために,ベースライントランスフォーマーと最先端手法に対するNeuTRENOの利点を実証的に実証した。
- 参考スコア(独自算出の注目度): 31.328766460487355
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformers have achieved remarkable success in a wide range of natural
language processing and computer vision applications. However, the
representation capacity of a deep transformer model is degraded due to the
over-smoothing issue in which the token representations become identical when
the model's depth grows. In this work, we show that self-attention layers in
transformers minimize a functional which promotes smoothness, thereby causing
token uniformity. We then propose a novel regularizer that penalizes the norm
of the difference between the smooth output tokens from self-attention and the
input tokens to preserve the fidelity of the tokens. Minimizing the resulting
regularized energy functional, we derive the Neural Transformer with a
Regularized Nonlocal Functional (NeuTRENO), a novel class of transformer models
that can mitigate the over-smoothing issue. We empirically demonstrate the
advantages of NeuTRENO over the baseline transformers and state-of-the-art
methods in reducing the over-smoothing of token representations on various
practical tasks, including object classification, image segmentation, and
language modeling.
- Abstract(参考訳): トランスフォーマーは、幅広い自然言語処理とコンピュータビジョンのアプリケーションで顕著な成功を収めてきた。
しかしながら、モデルの深さが大きくなるとトークン表現が同一になる過剰なスムーシング問題により、ディープトランスモデルの表現能力が低下する。
本研究では, 変圧器の自己保持層がスムーズ性を促進する機能を最小限に抑え, トークンの均一性をもたらすことを示す。
そこで,本研究では,トークンの忠実性を保つために,自己照査からの滑らかな出力トークンと入力トークンとの差分のノルムをペナライズする新しい正規化器を提案する。
得られた正規化エネルギー関数を最小化することで、過密問題を緩和できる新しい変圧器モデルである正規化非局所関数(NeuTRENO)を持つニューラルトランスを導出する。
我々は, オブジェクト分類, 画像分割, 言語モデリングなど, 様々な作業において, トークン表現の過度な平滑化を低減するために, ベースライントランスフォーマよりもNeuTRENOの利点を実証的に示す。
関連論文リスト
- CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Addressing Token Uniformity in Transformers via Singular Value
Transformation [24.039280291845706]
トークンの均一性は、変圧器ベースのモデルでよく見られる。
より歪んだ特異値分布はトークンの均一性の問題を軽減することができることを示す。
論文 参考訳(メタデータ) (2022-08-24T22:44:09Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。