論文の概要: Nexus: Higher-Order Attention Mechanisms in Transformers
- arxiv url: http://arxiv.org/abs/2512.03377v1
- Date: Wed, 03 Dec 2025 02:25:38 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:05:58.113861
- Title: Nexus: Higher-Order Attention Mechanisms in Transformers
- Title(参考訳): Nexus: トランスの高次アテンションメカニズム
- Authors: Hanting Chen, Chu Zhong, Kai Han, Yuchuan Tian, Yuchen Liang, Tianyu Guo, Xinghao Chen, Dacheng Tao, Yunhe Wang,
- Abstract要約: トランスフォーマーは、依存関係をキャプチャするための自己アテンションに依存して、さまざまなドメインで大きな成功を収めています。
表現力を高めるために設計された新しいアーキテクチャである textbfHigher-Order Attention Network (Hon) を提案する。
本稿では,本手法が標準注意の線形ボトルネックを破ることを示す理論的解析を行う。
- 参考スコア(独自算出の注目度): 81.08335650129132
- License:
- Abstract: Transformers have achieved significant success across various domains, relying on self-attention to capture dependencies. However, the standard first-order attention mechanism is often limited by a low-rank bottleneck, struggling to capture intricate, multi-hop relationships within a single layer. In this paper, we propose the \textbf{Higher-Order Attention Network (Hon)}, a novel architecture designed to enhance representational power through a recursive framework. Unlike standard approaches that use static linear projections for Queries and Keys, Hon dynamically refines these representations via nested self-attention mechanisms. Specifically, the Query and Key vectors are themselves outputs of inner attention loops, allowing tokens to aggregate global context and model high-order correlations \textit{prior} to the final attention computation. We enforce a parameter-efficient weight-sharing strategy across recursive steps, ensuring that this enhanced expressivity incurs $\mathcal{O}(1)$ additional parameters. We provide theoretical analysis demonstrating that our method breaks the linear bottleneck of standard attention. Empirically, Hon outperforms standard Transformers on multiple benchmarks.
- Abstract(参考訳): トランスフォーマーは、依存関係をキャプチャするための自己アテンションに依存して、さまざまなドメインで大きな成功を収めています。
しかし、標準のファーストオーダーアテンションメカニズムは、しばしば低ランクのボトルネックによって制限され、単一の層内で複雑なマルチホップ関係を捉えるのに苦労する。
本稿では,再帰的フレームワークによる表現力向上を目的とした新しいアーキテクチャであるtextbf{Higher-Order Attention Network (Hon)}を提案する。
クエリとキーの静的リニアプロジェクションを使用する標準的なアプローチとは異なり、Honはネストされた自己アテンションメカニズムを通じてこれらの表現を動的に洗練する。
具体的には、クエリとキーベクトルはそれ自体がインナーアテンションループの出力であり、トークンはグローバルコンテキストを集約し、最終アテンション計算に高次相関をモデル化することができる。
この拡張された表現性は$\mathcal{O}(1)$$追加パラメータをもたらすことを保証し、再帰的なステップをまたいでパラメータ効率のよい重み付け戦略を実施する。
本稿では,本手法が標準注意の線形ボトルネックを破ることを示す理論的解析を行う。
実証的には、Honは標準的なTransformerを複数のベンチマークで上回っている。
関連論文リスト
- Causal Attention with Lookahead Keys [52.63961482746826]
標準的な因果的注意では、各トークンのクエリ、キー、値(QKV)は静的であり、先行するコンテキストのみをエンコードする。
本研究では,Lookahead kEys (CASTLE) を用いたCAuSal aTtentionを導入する。
論文 参考訳(メタデータ) (2025-09-09T00:15:23Z) - Rethinking Transformer Connectivity: TLinFormer, A Path to Exact, Full Context-Aware Linear Attention [0.0]
本稿では,新しいリニアアテンションアーキテクチャ-textbfTLinFormerを提案する。
ニューロン接続パターンを再構成することにより、TLinFormerは正確な注意スコアを計算しながら厳密な線形複雑性を実現する。
TLinFormerは,textbfinference遅延, textbfKVキャッシュ効率, textbfMemoryフットプリントといった重要な指標において,圧倒的な優位性を示すことを示す。
論文 参考訳(メタデータ) (2025-08-28T04:10:19Z) - Small transformer architectures for task switching [2.7195102129095003]
注意に基づくアーキテクチャが従来のアプローチより優れていると考えるのは簡単ではない。
標準変圧器は基本的タスク切替参照モデルでは解けないことを示す。
本研究では, トランス, 長期記憶再帰ネットワーク (LSTM) , 平板多層パーセプトロン (MLP) が類似しているが, 予測精度は緩やかであることを示す。
論文 参考訳(メタデータ) (2025-08-06T14:01:05Z) - Are queries and keys always relevant? A case study on Transformer wave functions [0.0]
ドット製品アテンションメカニズム(ドット製品アテンションメカニズム)は、元々自然言語処理タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。
本稿では,変分波動関数のパラメトリゼーションの特定の領域において,トランスフォーマーの適応性について検討する。
論文 参考訳(メタデータ) (2024-05-29T08:32:37Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Compositional Attention: Disentangling Search and Retrieval [66.7108739597771]
Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。
標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。
本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
論文 参考訳(メタデータ) (2021-10-18T15:47:38Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。