論文の概要: Attention Is Not What You Need
- arxiv url: http://arxiv.org/abs/2512.19428v1
- Date: Mon, 22 Dec 2025 14:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.787111
- Title: Attention Is Not What You Need
- Title(参考訳): 注意は必要ではない
- Authors: Zhang Chong,
- Abstract要約: 標準的なマルチヘッドアテンションはテンソルリフトの一形態と見なされる。
本稿では,グラスマンフローに基づく無注意アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit a basic question in sequence modeling: is explicit self-attention actually necessary for strong performance and reasoning? We argue that standard multi-head attention is best seen as a form of tensor lifting: hidden vectors are mapped into a high-dimensional space of pairwise interactions, and learning proceeds by constraining this lifted tensor through gradient descent. This mechanism is extremely expressive but mathematically opaque, because after many layers it becomes very hard to describe the model with a small family of explicit invariants. To explore an alternative, we propose an attention-free architecture based on Grassmann flows. Instead of forming an L by L attention matrix, our Causal Grassmann layer (i) linearly reduces token states, (ii) encodes local token pairs as two-dimensional subspaces on a Grassmann manifold via Plucker coordinates, and (iii) fuses these geometric features back into the hidden states through gated mixing. Information therefore propagates by controlled deformations of low-rank subspaces over multi-scale local windows, so the core computation lives on a finite-dimensional manifold rather than in an unstructured tensor space. On the Wikitext-2 language modeling benchmark, purely Grassmann-based models with 13 to 18 million parameters achieve validation perplexities within about 10 to 15 percent of size-matched Transformers. On the SNLI natural language inference task, a Grassmann-Plucker head on top of DistilBERT slightly outperforms a Transformer head, with best validation and test accuracies of 0.8550 and 0.8538 compared to 0.8545 and 0.8511. We analyze the complexity of Grassmann mixing, show linear scaling in sequence length for fixed rank, and argue that such manifold-based designs offer a more structured route toward geometric and invariant-based interpretations of neural reasoning.
- Abstract(参考訳): 私たちはシーケンスモデリングにおける基本的な質問を再考する: 強いパフォーマンスと推論のために、明示的な自己意識は本当に必要か?
隠れベクトルは対の相互作用の高次元空間にマッピングされ、勾配降下を通じてこの昇降テンソルを拘束することで学習が進行する。
このメカニズムは非常に表現的だが数学的には不透明である、なぜなら多くの層が終わると、明示的な不変量の小さな族でモデルを記述することが非常に困難になるからである。
代替案を探るため,グラスマンフローに基づく無注意アーキテクチャを提案する。
L by L の注目行列を作る代わりに、我々の因果グラスマン層
(i)トークン状態を線形に減少させる。
(ii) プルッカー座標を通してグラスマン多様体上の2次元部分空間として局所トークン対を符号化し、
(三)ゲートミキシングによりこれらの幾何学的特徴を隠れた状態に融合させる。
したがって、情報はマルチスケール局所ウィンドウ上の低ランク部分空間の制御された変形によって伝播するので、コア計算は非構造テンソル空間ではなく有限次元多様体上に存在する。
Wikitext-2言語モデリングベンチマークでは、純粋に1300から1800万のパラメータを持つGrassmannベースのモデルは、サイズマッチングされたトランスフォーマーの約10から15%で検証の難しさを達成している。
SNLI自然言語推論タスクでは、 DistilBERT の上の Grassmann-Plucker ヘッドは Transformer ヘッドよりわずかに優れており、0.8550 と 0.8538 の検証とテスト精度は 0.8545 と 0.8511 より優れている。
我々は、グラスマン混合の複雑さを分析し、固定階数に対する列長の線形スケーリングを示し、そのような多様体に基づく設計は、幾何的および不変量に基づくニューラル推論の解釈へのより構造化された経路を提供すると主張する。
関連論文リスト
- Towards Interpretability Without Sacrifice: Faithful Dense Layer Decomposition with Mixture of Decoders [34.99839291352472]
多層パーセプトロン(MLP)は、大規模言語モデルの不可欠な部分である。
近年の手法では、ニューロンレベルの間隔を通して解釈可能な近似を学習するが、元のマッピングを忠実に再構築することはできなかった。
本稿では,スパース近似の精度トレードオフを克服するため,層レベルの空間性への移行を提唱する。
論文 参考訳(メタデータ) (2025-05-27T15:55:55Z) - Connecting Parameter Magnitudes and Hessian Eigenspaces at Scale using Sketched Methods [22.835933033524718]
任意のパラメータマスクとヘッセン固有空間の類似性を測定する手法をグラスマン計量を用いて開発する。
我々の実験では、等級パラメータマスクとトップヘッセン固有空間の間の*オーバーラップ*が、確率レベルよりも一貫して高いことを明らかにした。
我々の研究は、ディープラーニングヘッセンを大規模に近似し、分析するための方法論を提供し、また、その固有空間の構造に関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2025-04-20T18:29:39Z) - TensorGRaD: Tensor Gradient Robust Decomposition for Memory-Efficient Neural Operator Training [91.8932638236073]
textbfTensorGRaDは,重み付けに伴うメモリ問題に直接対処する新しい手法である。
SparseGRaD は総メモリ使用量を 50% 以上削減し,同時に精度も向上することを示した。
論文 参考訳(メタデータ) (2025-01-04T20:51:51Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - From Semantics to Hierarchy: A Hybrid Euclidean-Tangent-Hyperbolic Space Model for Temporal Knowledge Graph Reasoning [1.1372536310854844]
時間的知識グラフ(TKG)推論は、過去のデータに基づいて将来の出来事を予測する。
既存のユークリッドモデルはセマンティクスを捉えるのに優れているが、階層構造に苦しむ。
ユークリッドモデルと双曲モデルの両方の強みを利用する新しいハイブリッド幾何空間アプローチを提案する。
論文 参考訳(メタデータ) (2024-08-30T10:33:08Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - 2D+3D facial expression recognition via embedded tensor manifold
regularization [16.98176664818354]
2D+3次元表情認識(FERETMR)のための埋め込みテンソル多様体正規化による新しい手法を提案する。
定常点の観点から一階最適条件を確立し、収束解析によるブロック座標降下(BCD)アルゴリズムを設計する。
BU-3DFEデータベースとBosphorusデータベースの数値計算結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-01-29T06:11:00Z) - NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One
Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。
NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。
異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文 参考訳(メタデータ) (2021-06-17T12:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。