論文の概要: On Separate Normalization in Self-supervised Transformers
- arxiv url: http://arxiv.org/abs/2309.12931v1
- Date: Fri, 22 Sep 2023 15:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 14:11:39.241976
- Title: On Separate Normalization in Self-supervised Transformers
- Title(参考訳): 自己教師形変圧器における分離正規化について
- Authors: Xiaohui Chen, Yinkai Wang, Yuanqi Du, Soha Hassoun, Li-Ping Liu
- Abstract要約: トークンと[]シンボルの正規化レイヤを分離した簡単な修正を提案する。
本手法は,両方のトークンに対して同一の正規化統計値を使用することによる潜在的な負の効果を軽減することを目的としている。
従来の正規化層を2つの別々の層に置き換える場合、平均2.7%の性能改善が観察される。
- 参考スコア(独自算出の注目度): 26.768221386486353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised training methods for transformers have demonstrated
remarkable performance across various domains. Previous transformer-based
models, such as masked autoencoders (MAE), typically utilize a single
normalization layer for both the [CLS] symbol and the tokens. We propose in
this paper a simple modification that employs separate normalization layers for
the tokens and the [CLS] symbol to better capture their distinct
characteristics and enhance downstream task performance. Our method aims to
alleviate the potential negative effects of using the same normalization
statistics for both token types, which may not be optimally aligned with their
individual roles. We empirically show that by utilizing a separate
normalization layer, the [CLS] embeddings can better encode the global
contextual information and are distributed more uniformly in its anisotropic
space. When replacing the conventional normalization layer with the two
separate layers, we observe an average 2.7% performance improvement over the
image, natural language, and graph domains.
- Abstract(参考訳): 変圧器の自己指導訓練法は,様々な領域で顕著な性能を示した。
マスク付きオートエンコーダ(MAE)のような以前のトランスフォーマーベースのモデルは、通常、[CLS]シンボルとトークンの両方に単一の正規化層を使用する。
本稿では,トークンの正規化レイヤと[CLS]シンボルを分離して,それらの特徴をよりよく把握し,下流タスク性能を向上させるための簡単な修正を提案する。
本手法は,両トークン型に対して同一の正規化統計値を使用することによる潜在的負の効果を緩和することを目的としている。
我々は,別の正規化層を利用することで,[CLS]埋め込みがグローバルな文脈情報をよりよく符号化し,異方性空間に均一に分散できることを実証的に示す。
従来の正規化層を2つの別々の層に置き換える場合、画像、自然言語、グラフドメインに対する平均2.7%のパフォーマンス改善が観察される。
関連論文リスト
- On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent [51.50999191584981]
Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートである。
我々はSignGDが雑音の多いデータセット上で2層トランスを最適化する方法について検討する。
SignGDの一般化が不十分なのはデータノイズによるものではなく、SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。
論文 参考訳(メタデータ) (2024-10-07T09:36:43Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Pyramid Hierarchical Transformer for Hyperspectral Image Classification [1.9427851979929982]
ピラミッド型階層変換器(PyFormer)を提案する。
この革新的なアプローチは、入力データを階層的にセグメントにまとめ、それぞれが異なる抽象レベルを表す。
その結果,従来の手法よりも提案手法の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-04-23T11:41:19Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Condition-Invariant Semantic Segmentation [77.10045325743644]
我々は現在最先端のドメイン適応アーキテクチャ上で条件不変セマンティック(CISS)を実装している。
本手法は,通常の都市景観$to$ACDCベンチマークにおいて,2番目に高い性能を実現する。
CISSはBDD100K-nightやACDC-nightのようなトレーニング中に見えない領域によく一般化している。
論文 参考訳(メタデータ) (2023-05-27T03:05:07Z) - Context Normalization Layer with Applications [0.1499944454332829]
本研究では,画像データに対する文脈正規化と呼ばれる新しい正規化手法を提案する。
各サンプルの特性に基づいて特徴のスケーリングを調整し、モデルの収束速度と性能を改善する。
文脈正規化の有効性は様々なデータセットで示され、その性能は他の標準正規化手法と比較される。
論文 参考訳(メタデータ) (2023-03-14T06:38:17Z) - Leveraging redundancy in attention with Reuse Transformers [58.614198953733194]
Pairwise dot product-based attentionでは、Transformerは入力依存の方法でトークン間で情報を交換することができる。
典型的なTransformerモデルは、同じシーケンスに対してそのようなペアワイズアテンションスコアを何度も計算する。
本稿では,複数の層において1層で計算された注意点を再利用する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:08:02Z) - Consistency Regularization for Variational Auto-Encoders [14.423556966548544]
変分自動エンコーダ(VAE)は教師なし学習の強力なアプローチである。
本稿では,VAEの整合性を強制する正規化手法を提案する。
論文 参考訳(メタデータ) (2021-05-31T10:26:32Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z) - Data-efficient Alignment of Multimodal Sequences by Aligning Gradient
Updates and Internal Feature Distributions [36.82512331179322]
近年の研究では、異なるモダリティを扱うネットワークコンポーネントが、異なる速度でオーバーフィットし、一般化し、トレーニングの難しさを生んでいることが示唆されている。
本稿では,各層における勾配更新の規模を調整し,学習速度のバランスをとるため,LARS(Layer-wise Adaptive Rate Scaling)を提案する。
また、シーケンスワイドバッチ正規化(SBN)を用いて、内部の特徴分布を異なるモードから整列する。
論文 参考訳(メタデータ) (2020-11-15T13:04:25Z) - Exemplar Normalization for Learning Deep Representation [34.42934843556172]
本研究は、初等正規化(EN)を提案することによって、新しい動的学習-正規化(L2N)問題について検討する。
ENは、異なる畳み込み層とディープネットワークの画像サンプルの異なる正規化方法を学ぶことができる。
論文 参考訳(メタデータ) (2020-03-19T13:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。