Fugu-MT 論文翻訳(概要): Addressing Token Uniformity in Transformers via Singular Value Transformation

論文の概要: Addressing Token Uniformity in Transformers via Singular Value Transformation

arxiv url: http://arxiv.org/abs/2208.11790v1
Date: Wed, 24 Aug 2022 22:44:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-26 13:16:58.730198
Title: Addressing Token Uniformity in Transformers via Singular Value Transformation
Title（参考訳）: 特異値変換による変圧器のトークン均一性への対処
Authors: Hanqi Yan, Lin Gui, Wenjie Li, Yulan He
Abstract要約: トークンの均一性は、変圧器ベースのモデルでよく見られる。より歪んだ特異値分布はトークンの均一性の問題を軽減することができることを示す。
参考スコア（独自算出の注目度）: 34.00101625179509
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Token uniformity is commonly observed in transformer-based models, in which different tokens share a large proportion of similar information after going through stacked multiple self-attention layers in a transformer. In this paper, we propose to use the distribution of singular values of outputs of each transformer layer to characterise the phenomenon of token uniformity and empirically illustrate that a less skewed singular value distribution can alleviate the `token uniformity' problem. Base on our observations, we define several desirable properties of singular value distributions and propose a novel transformation function for updating the singular values. We show that apart from alleviating token uniformity, the transformation function should preserve the local neighbourhood structure in the original embedding space. Our proposed singular value transformation function is applied to a range of transformer-based language models such as BERT, ALBERT, RoBERTa and DistilBERT, and improved performance is observed in semantic textual similarity evaluation and a range of GLUE tasks. Our source code is available at https://github.com/hanqi-qi/tokenUni.git.
Abstract（参考訳）: トークンの均一性は、トランスフォーマーの複数のセルフアテンション層を積み重ねた後、異なるトークンが多くの類似情報を共有するトランスフォーマーモデルで一般的に見られる。本稿では,各変圧器層の出力の特異値分布を用いてトークン一様現象を特徴付けることを提案し,より歪んだ特異値分布が「分岐一様性」問題を緩和できることを実証的に示す。観測に基づいて特異値分布の望ましいいくつかの特性を定義し,特異値を更新するための新しい変換関数を提案する。トークン一様性を緩和することとは別に、変換関数は元の埋め込み空間内の局所近傍構造を保存すべきである。提案する特異値変換関数はBERT, ALBERT, RoBERTa, DistilBERTなどのトランスフォーマベース言語モデルに適用され, セマンティックテキスト類似性評価やGLUEタスクの範囲で性能改善が観察される。ソースコードはhttps://github.com/hanqi-qi/tokenuni.gitで入手できます。

関連論文リスト

Inceptive Transformers: Enhancing Contextual Representations through Multi-Scale Feature Learning Across Domains and Languages [2.98683507969764]
textitInceptive Transformerは、トランスフォーマーベースのトークン表現を充実させるモジュール式で軽量なアーキテクチャである。本モデルは,局所的およびグローバルな依存関係のバランスを,特定のタスクに対する関連性に基づいてトークンを動的に重み付けすることによって設計する。
論文参考訳（メタデータ） (2025-05-26T19:59:22Z)
Comateformer: Combined Attention Transformer for Semantic Sentence Matching [11.746010399185437]
本稿では,トランスフォーマーモデルに基づくコンバインド・アテンション・ネットワークという新しい意味文マッチングモデルを提案する。 Comateformer モデルでは,構成特性を持つ新しい変圧器を用いた準アテンション機構を設計する。提案手法は,双対親和性スコアを計算する際の類似性と相似性(負親和性)の直感に基づく。
論文参考訳（メタデータ） (2024-12-10T06:18:07Z)
Unsupervised Representation Learning from Sparse Transformation Analysis [79.94858534887801]
本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習することを提案する。入力データは、まず潜伏活性化の分布として符号化され、その後確率フローモデルを用いて変換される。
論文参考訳（メタデータ） (2024-10-07T23:53:25Z)
PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文参考訳（メタデータ） (2024-09-24T07:57:21Z)
Transformers are Universal In-context Learners [21.513210412394965]
深層変換器は、コンパクトなトークン領域を均一に、任意の精度で連続的なコンテキスト内マッピングを近似できることを示す。我々の結果の重要な側面は、既存の結果と比較して、固定精度では、単一変圧器が任意の(無限の)トークン数で動作可能であることである。
論文参考訳（メタデータ） (2024-08-02T16:21:48Z)
EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文参考訳（メタデータ） (2024-03-26T14:18:43Z)
Mitigating Over-smoothing in Transformers via Regularized Nonlocal Functionals [31.328766460487355]
変圧器の自己保持層は, 平滑化を促進する機能を最小限に抑え, トークンの均一性をもたらすことを示す。本稿では, 自己注意からのスムーズな出力トークンと入力トークンとの差分を正規化して, トークンの忠実性を維持するための新たな正規化器を提案する。我々は,トークン表現の過度な平滑化を低減するために,ベースライントランスフォーマーと最先端手法に対するNeuTRENOの利点を実証的に実証した。
論文参考訳（メタデータ） (2023-12-01T17:52:47Z)
Manifold-Preserving Transformers are Effective for Short-Long Range Encoding [39.14128923434994]
マルチヘッドセルフアテンションベースのトランスフォーマーは、異なる学習タスクにおいて有望であることを示す。本研究では,一対のトークン間の層間距離保存を理論的に保証するエンコーダモデルTransJectを提案する。
論文参考訳（メタデータ） (2023-10-22T06:58:28Z)
iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。 iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文参考訳（メタデータ） (2023-10-10T13:44:09Z)
Latent Positional Information is in the Self-Attention Variance of Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文参考訳（メタデータ） (2023-05-23T01:03:40Z)
Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in Transformer-Based Variational AutoEncoder for Diverse Text Generation [85.5379146125199]
変分自動エンコーダ(VAE)はテキスト生成において広く採用されている。本稿ではトランスフォーマーをベースとしたリカレントVAE構造であるTRACEを提案する。
論文参考訳（メタデータ） (2022-10-22T10:25:35Z)
Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。 VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文参考訳（メタデータ） (2022-07-22T04:10:30Z)
Consistency Regularization for Variational Auto-Encoders [14.423556966548544]
変分自動エンコーダ(VAE)は教師なし学習の強力なアプローチである。本稿では,VAEの整合性を強制する正規化手法を提案する。
論文参考訳（メタデータ） (2021-05-31T10:26:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。