論文の概要: Native Hybrid Attention for Efficient Sequence Modeling
- arxiv url: http://arxiv.org/abs/2510.07019v1
- Date: Wed, 08 Oct 2025 13:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.52475
- Title: Native Hybrid Attention for Efficient Sequence Modeling
- Title(参考訳): 効率的なシーケンスモデリングのためのネイティブハイブリッドアテンション
- Authors: Jusen Du, Jiaxi Hu, Tao Zhang, Weigao Sun, Yu Cheng,
- Abstract要約: ネイティブハイブリッドアテンション(NHA)は、線形およびフルアテンションの新たなハイブリッドアーキテクチャである。
単一のtextttsoftmaxアテンション操作は、すべてのキーと値に適用される。
実験結果から,NHAはリコール集約・コモンセンス推論タスクにおいてトランスフォーマーを上回ることがわかった。
- 参考スコア(独自算出の注目度): 12.306252523159197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers excel at sequence modeling but face quadratic complexity, while linear attention offers improved efficiency but often compromises recall accuracy over long contexts. In this work, we introduce Native Hybrid Attention (NHA), a novel hybrid architecture of linear and full attention that integrates both intra \& inter-layer hybridization into a unified layer design. NHA maintains long-term context in key-value slots updated by a linear RNN, and augments them with short-term tokens from a sliding window. A single \texttt{softmax attention} operation is then applied over all keys and values, enabling per-token and per-head context-dependent weighting without requiring additional fusion parameters. The inter-layer behavior is controlled through a single hyperparameter, the sliding window size, which allows smooth adjustment between purely linear and full attention while keeping all layers structurally uniform. Experimental results show that NHA surpasses Transformers and other hybrid baselines on recall-intensive and commonsense reasoning tasks. Furthermore, pretrained LLMs can be structurally hybridized with NHA, achieving competitive accuracy while delivering significant efficiency gains. Code is available at https://github.com/JusenD/NHA.
- Abstract(参考訳): トランスフォーマーはシーケンスモデリングにおいて優れているが、二次的な複雑さに直面している一方、線形アテンションは効率を向上するが、長いコンテキストでのリコール精度を損なうことが多い。
In this work, we introduced Native Hybrid Attention (NHA), a novel hybrid architecture of linear and full attention which which integrates both \ and inter-layer hybridization into a unified layer design。
NHAは、線形RNNによって更新されたキー値スロットの長期コンテキストを維持し、スライドウィンドウから短期トークンを付加する。
次に、単一の‘texttt{softmax attention} 操作がすべてのキーと値に適用されるので、追加の融合パラメータを必要とせずに、トーケンと頭ごとのコンテキスト依存重み付けが可能になる。
層間挙動は1つのハイパーパラメータ、スライディングウィンドウサイズによって制御され、全ての層を構造的に均一に保ちながら、純粋に線形かつ全注意を円滑に調整することができる。
実験の結果,NHAはリコール集約型およびコモンセンス推論タスクにおいてトランスフォーマーや他のハイブリッドベースラインを上回ることがわかった。
さらに、プレトレーニングされたLLMは、NHAと構造的にハイブリッド化することができ、競争精度が向上し、高い効率性が得られる。
コードはhttps://github.com/JusenD/NHAで入手できる。
関連論文リスト
- Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling [0.0]
Gated Associative Memory (GAM) ネットワークは、シーケンスモデリングのための新しい完全に並列なアーキテクチャである。
我々はGAMをゼロから実装し、標準的なトランスフォーマーモデルと現代的な線形時間ベースラインに対して厳密な比較分析を行う。
我々の実験は、GAMは一貫して高速で、トレーニング速度のベースラインの両方を上回り、全てのデータセットで優れた、または競争力のある最終バリデーションの難しさを達成できることを示した。
論文 参考訳(メタデータ) (2025-08-30T20:59:46Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - HybridTM: Combining Transformer and Mamba for 3D Semantic Segmentation [7.663855540620183]
3次元セマンティックセグメンテーションのためにTransformerとMambaを統合した最初のハイブリッドアーキテクチャであるHybridTMを提案する。
さらに,注意とマンバをより微細な粒度で組み合わせた内層ハイブリッド戦略を提案する。
私たちのHybridTMは、ScanNet、ScanNet200、nuScenesベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-07-24T16:48:50Z) - A Systematic Analysis of Hybrid Linear Attention [11.722015123070957]
リニアモデルはしばしばリコール性能の制限に悩まされる。
本研究は, 効率的なハイブリッドモデルとして, 選択的ゲーティング, 階層的再帰, 制御的忘れを重要視する。
私たちのモデルはhttps://huggingface.co/collections/m-hugging-a-p/hybrid-linear-attention-research-686c488a63d609d2f2 0e2b1eでオープンソース化されています。
論文 参考訳(メタデータ) (2025-07-08T23:54:11Z) - A Scalable Hybrid Training Approach for Recurrent Spiking Neural Networks [13.220581846415957]
本稿では、並列化の効率と近似オンライン前方学習を組み合わせたHYPR(HYbrid PRopagation)を提案する。
HYPRは、ほぼ任意の非線形スパイキングニューロンモデルからなるRSNNのサブシーケンスに対するパラメータ更新の並列化を可能にする。
このタイプのニューロンモデルは、HYPRにより特に訓練可能であり、前向き勾配学習とBPTTの間には、前例のない低いタスク性能のギャップが生じることが判明した。
論文 参考訳(メタデータ) (2025-06-17T12:27:25Z) - DLF: Enhancing Explicit-Implicit Interaction via Dynamic Low-Order-Aware Fusion for CTR Prediction [71.41414150295702]
本稿では,クリックスルー率(CTR)予測をモデル化するための新しいフレームワークである動的低次認識融合(DLF)を提案する。
RLIは残差接続からの冗長性を緩和しながら低次信号を保持し、NAFは各層での明示的および暗黙的な表現を動的に統合し、情報共有を強化する。
公開データセットの実験では、DLFがCTR予測における最先端のパフォーマンスを達成し、既存のモデルの重要な制限に対処していることが示されている。
論文 参考訳(メタデータ) (2025-05-25T15:05:00Z) - Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。
ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。
我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文 参考訳(メタデータ) (2025-02-25T19:47:20Z) - Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。
GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。
GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-21T18:56:19Z) - CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。
実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文 参考訳(メタデータ) (2024-12-20T17:57:09Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - TriMLP: Revenge of a MLP-like Architecture in Sequential Recommendation [23.32537260687907]
本稿では,TriMLPという逐次レコメンデーションのためのシーケンシャルなアーキテクチャと,クロストークン通信のための新しい三角形ミキサーを提案する。
三角ミキサーの設計において,基本行列乗算としてのクロストケン操作のイナシイを単純化し,重み行列の下方三角形ニューロンを落として,反時間次接続を将来のトークンからブロックする。
論文 参考訳(メタデータ) (2023-05-24T03:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。