論文の概要: Manifold-Preserving Transformers are Effective for Short-Long Range
Encoding
- arxiv url: http://arxiv.org/abs/2310.14206v1
- Date: Sun, 22 Oct 2023 06:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:13:13.431576
- Title: Manifold-Preserving Transformers are Effective for Short-Long Range
Encoding
- Title(参考訳): 多様体保存トランスは短距離符号化に有効である
- Authors: Ayan Sengupta, Md Shad Akhtar and Tanmoy Chakraborty
- Abstract要約: マルチヘッドセルフアテンションベースのトランスフォーマーは、異なる学習タスクにおいて有望であることを示す。
本研究では,一対のトークン間の層間距離保存を理論的に保証するエンコーダモデルTransJectを提案する。
- 参考スコア(独自算出の注目度): 39.14128923434994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-head self-attention-based Transformers have shown promise in different
learning tasks. Albeit these models exhibit significant improvement in
understanding short-term and long-term contexts from sequences, encoders of
Transformers and their variants fail to preserve layer-wise contextual
information. Transformers usually project tokens onto sparse manifolds and fail
to preserve mathematical equivalence among the token representations. In this
work, we propose TransJect, an encoder model that guarantees a theoretical
bound for layer-wise distance preservation between a pair of tokens. We propose
a simple alternative to dot-product attention to ensure Lipschitz continuity.
This allows TransJect to learn injective mappings to transform token
representations to different manifolds with similar topology and preserve
Euclidean distance between every pair of tokens in subsequent layers.
Evaluations across multiple benchmark short- and long-sequence classification
tasks show maximum improvements of 6.8% and 5.9%, respectively, over the
variants of Transformers. Additionally, TransJect displays 79% better
performance than Transformer on the language modeling task. We further
highlight the shortcomings of multi-head self-attention from the statistical
physics viewpoint. Although multi-head self-attention was incepted to learn
different abstraction levels within the networks, our empirical analyses
suggest that different attention heads learn randomly and unorderly. In
contrast, TransJect adapts a mixture of experts for regularization; these
experts are more orderly and balanced and learn different sparse
representations from the input sequences. TransJect exhibits very low entropy
and can be efficiently scaled to larger depths.
- Abstract(参考訳): マルチヘッドセルフアテンションベースのトランスフォーマーは、さまざまな学習タスクで期待されている。
これらのモデルは、シークエンス、トランスフォーマーのエンコーダ、およびそれらの変種からの短期的および長期的コンテキストの理解において、大きな改善を示す。
トランスフォーマーは通常、トークンをスパース多様体に射影し、トークン表現間の数学的等価性を維持するのに失敗する。
本研究では,一対のトークン間の層間距離保存の理論的境界を保証するエンコーダモデルであるtransjectを提案する。
リプシッツ連続性を確保するために,点生成的注意の簡易な代替案を提案する。
これにより、トランジェクションは射影写像を学習し、同様のトポロジーを持つ異なる多様体へのトークン表現を変換し、続く層内のすべてのトークン間のユークリッド距離を保存することができる。
複数のベンチマークのショートシーケンスとロングシーケンスの分類タスクに対する評価は、トランスフォーマーの変種よりも最大6.8%と5.9%の改善を示している。
さらに、TransJectは言語モデリングタスクでTransformerよりも79%パフォーマンスが向上している。
統計物理学の観点から,マルチヘッド自己注意の欠点をさらに強調する。
マルチヘッド・セルフ・アテンションはネットワーク内で異なる抽象レベルを学ぶために始められたが、実験的な分析から異なる注意ヘッドがランダムに無秩序に学習することを示唆している。
対照的に、transjectは正規化のために専門家の混合物に適応する;これらの専門家はより秩序とバランスを持ち、入力シーケンスから異なるスパース表現を学ぶ。
トランスジェクトは非常に低いエントロピーを示し、より深い深さまで効率的にスケールできる。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Mitigating Over-smoothing in Transformers via Regularized Nonlocal
Functionals [31.328766460487355]
変圧器の自己保持層は, 平滑化を促進する機能を最小限に抑え, トークンの均一性をもたらすことを示す。
本稿では, 自己注意からのスムーズな出力トークンと入力トークンとの差分を正規化して, トークンの忠実性を維持するための新たな正規化器を提案する。
我々は,トークン表現の過度な平滑化を低減するために,ベースライントランスフォーマーと最先端手法に対するNeuTRENOの利点を実証的に実証した。
論文 参考訳(メタデータ) (2023-12-01T17:52:47Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for
Long Sequences [16.066338004414092]
textitDiffuserはシーケンシャル・ツー・シーケンス・モデリングのための新しい効率的なトランスフォーマーである。
低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。
スペクトルの観点からグラフ展開特性を解析することにより、全アテンションを近似する能力を示す。
論文 参考訳(メタデータ) (2022-10-21T08:13:34Z) - Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - Smart Bird: Learnable Sparse Attention for Efficient and Effective
Transformer [51.79399904527525]
学習可能なスパースアテンションを持つ効率的かつ効果的なトランスフォーマーであるSmart Birdを提案する。
Smart Birdでは、まず1ヘッドの低次元変換器でスケッチされた注目行列を計算します。
次に、スケッチされた注目行列から得られた確率スコアに基づいてトークンペアをサンプリングし、異なる注目ヘッドに対して異なるスパース注意指標行列を生成する。
論文 参考訳(メタデータ) (2021-08-20T14:22:00Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。