論文の概要: Orthogonal Self-Attention
- arxiv url: http://arxiv.org/abs/2602.05996v1
- Date: Thu, 05 Feb 2026 18:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.130253
- Title: Orthogonal Self-Attention
- Title(参考訳): 直交自尊心
- Authors: Leo Zhang, James Martens,
- Abstract要約: Softmax Self-Attention (SSA) はTransformerアーキテクチャの重要なコンポーネントである。
最近の研究は、階級崩壊と条件の悪いジャコビアンによるSSAの固有の不安定さを強調している。
我々は,これらの問題を回避すべく,新たな注意機構である直交自己注意(Orthogonal Self-Attention,OSA)を設計する。
- 参考スコア(独自算出の注目度): 4.235348155087336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Softmax Self-Attention (SSA) is a key component of Transformer architectures. However, when utilised within skipless architectures, which aim to improve representation learning, recent work has highlighted the inherent instability of SSA due to inducing rank collapse and poorly-conditioned Jacobians. In this work, we design a novel attention mechanism: Orthogonal Self-Attention (OSA), which aims to bypass these issues with SSA, in order to allow for (non-causal) Transformers without skip connections and normalisation layers to be more easily trained. In particular, OSA parametrises the attention matrix to be orthogonal via mapping a skew-symmetric matrix, formed from query-key values, through the matrix exponential. We show that this can be practically implemented, by exploiting the low-rank structure of our query-key values, resulting in the computational complexity and memory cost of OSA scaling linearly with sequence length. Furthermore, we derive an initialisation scheme for which we prove ensures that the Jacobian of OSA is well-conditioned.
- Abstract(参考訳): Softmax Self-Attention (SSA) はTransformerアーキテクチャの重要なコンポーネントである。
しかし、表現学習の改善を目的としたスキップレスアーキテクチャ内での利用において、最近の研究は、ランク崩壊と条件の悪いヤコビアンによるSSA固有の不安定さを強調している。
本研究は, 直交自己注意(OSA: Orthogonal Self-Attention)を設計し, SSAによるこれらの問題を回避し, 接続をスキップせず, 正規化層をより容易に訓練できるようにする。
特にOSAは、問合せキー値から生成されるスキュー対称行列を行列指数を通してマッピングすることで、注意行列を直交するようにパラメライズする。
提案手法は,クエリキー値の低ランク構造を利用して,OSAの計算複雑性とメモリコストを線形に拡張することで実現可能であることを示す。
さらに、OSAのヤコビアンが十分に条件付きであることを証明する初期化スキームを導出する。
関連論文リスト
- Deep Delta Learning [91.75868893250662]
本稿では,標準残差接続を一般化した新しいアーキテクチャであるDeep Delta Learning(DDL)を紹介する。
我々はこの演算子のスペクトル解析を行い、ゲート$(mathbfX)$がアイデンティティマッピング、投影、幾何反射のダイナミックな相互作用を可能にすることを示した。
この統合により、ネットワークは階層的な遷移作用素のスペクトルを明示的に制御することができ、複雑な非単調力学のモデリングを可能にする。
論文 参考訳(メタデータ) (2026-01-01T18:11:38Z) - Vision Transformers are Circulant Attention Learners [30.300457741980846]
自己注意機構は視覚変換器の進歩の鍵となる要素である。
我々は,自己注意の本質的効率的なパターンを生かして,textbfCirculant Attentionと呼ばれる新しい注意パラダイムを提案する。
論文 参考訳(メタデータ) (2025-12-25T07:28:33Z) - Structured Sparse Transition Matrices to Enable State Tracking in State-Space Models [68.31088463716269]
状態空間モデル(SSM)における遷移行列の構造的スパースパラメトリゼーションを提案する。
我々の方法PD-SSMは、遷移行列をカラム1ホット行列(P$)と複素数値対角行列(D$)の積としてパラメータ化する。
このモデルは、様々なFSA状態追跡タスクにおいて、現代のSSMの多種多様なバリエーションを著しく上回っている。
論文 参考訳(メタデータ) (2025-09-26T12:46:30Z) - Scaling Probabilistic Circuits via Monarch Matrices [109.65822339230853]
確率回路(PC)は確率分布の抽出可能な表現である。
そこで本研究では,PCの和ブロックに対する新しいスパースパラメータと構造化パラメータ化を提案する。
論文 参考訳(メタデータ) (2025-06-14T07:39:15Z) - Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction [29.12836710966048]
本稿では,トークン数に応じて計算複雑性が線形にスケールする新しいトランスフォーマーアテンション演算子を提案する。
本研究は, トランスフォーマーアーキテクチャの成功に対して, ペアワイズ類似性スタイルの注意機構が重要であるという従来の知恵に疑問を投げかけるものである。
論文 参考訳(メタデータ) (2024-12-23T18:59:21Z) - Reducing the Transformer Architecture to a Minimum [5.352839075466439]
トランスフォーマーは、特に自然言語処理(NLP)とコンピュータビジョン(CV)において、広く成功しているモデルアーキテクチャである。
注意機構自体は、その内部的な類似度測定によって非線形である。
MNISTとCIFAR-10という,広範なCVベンチマークを試験して,その基盤を築き上げた。
論文 参考訳(メタデータ) (2024-10-17T16:36:14Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Rank Reduction Autoencoders [3.180674374101366]
我々は、新しい決定論的オートエンコーダ、ランク削減オートエンコーダ(RRAE)を導入する。
RRAEでは、ボトルネックは潜在行列のランクによって定義され、これによりエンコーダ/デコーダアーキテクチャのボトルネックサイズへの依存性が軽減される。
RRAEとARRAEはどちらも安定し,スケーラブルで,信頼性が高いことを実証的に実証した。
論文 参考訳(メタデータ) (2024-05-22T20:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。