論文の概要: MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head
- arxiv url: http://arxiv.org/abs/2601.07832v2
- Date: Wed, 14 Jan 2026 04:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 14:49:41.184275
- Title: MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head
- Title(参考訳): MHLA:Token-Level Multi-Headによる線形注意の回復表現性
- Authors: Kewei Zhang, Ye Huang, Yufan Deng, Jincheng Yu, Junsong Chen, Huan Ling, Enze Xie, Daquan Zhou,
- Abstract要約: 線形アテンションは効率的な代替手段を提供するが、その直接的なアプリケーションはしばしば性能を低下させる。
本稿では,トークン次元に沿って分割されたヘッド内での注意を演算することで,この多様性を保ったマルチヘッド線形注意(MHLA)を提案する。
我々は,MHLAがソフトマックスアテンションの表現力の多くを回復しながら線形複雑性を維持していることを証明し,その有効性を複数の領域にわたって検証した。
- 参考スコア(独自算出の注目度): 34.97685474077599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the Transformer architecture dominates many fields, its quadratic self-attention complexity hinders its use in large-scale applications. Linear attention offers an efficient alternative, but its direct application often degrades performance, with existing fixes typically re-introducing computational overhead through extra modules (e.g., depthwise separable convolution) that defeat the original purpose. In this work, we identify a key failure mode in these methods: global context collapse, where the model loses representational diversity. To address this, we propose Multi-Head Linear Attention (MHLA), which preserves this diversity by computing attention within divided heads along the token dimension. We prove that MHLA maintains linear complexity while recovering much of the expressive power of softmax attention, and verify its effectiveness across multiple domains, achieving a 3.6\% improvement on ImageNet classification, a 6.3\% gain on NLP, a 12.6\% improvement on image generation, and a 41\% enhancement on video generation under the same time complexity.
- Abstract(参考訳): Transformerアーキテクチャは多くの分野を支配しているが、その二次的な自己注意の複雑さは大規模アプリケーションでの使用を妨げる。
線形アテンションは効率的な代替手段を提供するが、その直接的なアプリケーションは、しばしばパフォーマンスを低下させ、既存の修正は、通常、元の目的を破る余分なモジュール(例えば、深く分離可能な畳み込み)を通して計算オーバーヘッドを再導入する。
本研究では,これらの手法における重要な障害モードとして,大域的コンテキスト崩壊(global context collapse, モデルが表現の多様性を失う)を同定する。
これを解決するために,トークン次元に沿って分割されたヘッド内での注意を演算することで,この多様性を保ったマルチヘッド線形注意(MHLA)を提案する。
我々は、MHLAが、ソフトマックスアテンションの表現力の多くを回復しながら線形複雑性を維持し、その有効性を複数のドメインで検証し、ImageNet分類における3.6\%の改善、NLPにおける6.3\%の利得、画像生成における12.6\%の改善、同時複雑性下でのビデオ生成における41\%の強化を実現していることを証明した。
関連論文リスト
- Linear Attention with Global Context: A Multipole Attention Mechanism for Vision and Physics [42.41787036246253]
本稿では,マルチポール注意ニューラル演算子 (MANO) について紹介する。
我々は,MANOがViTやSwin Transformerといった最先端モデルと競合する一方で,実行時およびピークメモリ使用量を桁違いに削減していることを示す。
論文 参考訳(メタデータ) (2025-07-03T16:05:26Z) - Inceptive Transformers: Enhancing Contextual Representations through Multi-Scale Feature Learning Across Domains and Languages [3.294155819837931]
Transformerモデルは、シーケンス内のすべてのトークンから1つの[/]トークンに情報を圧縮して、グローバルなコンテキストを表現する。
このアプローチは、きめ細かい機能や階層的な特徴を希薄化し、局所的なパターンが重要である下流のタスクで情報を失うリスクがある。
本稿では,トランス層上に位置するインセプションスタイルの1-D畳み込みモジュールを提案し,マルチスケールな局所的特徴を持つトークン表現を拡大する。
論文 参考訳(メタデータ) (2025-05-26T19:59:22Z) - Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention [54.42902794496325]
ソフトマックスアテンションの変種である線形アテンションは、グローバルコンテキストモデリングにおける約束を示す。
軽量な奥行き畳み込みを統合することで特徴表現を充実させる簡易かつ効果的な方法であるRランク拡張線形アテンション(RELA)を提案する。
本稿では,RELA をベースとした画像復元変換器 LAformer を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:57:23Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Large-scale Global Low-rank Optimization for Computational Compressed
Imaging [8.594666859332124]
本稿では,グローバルな自己相似性と高効率な大規模再構成を実現するグローバル低ランク(GLR)最適化手法を提案する。
深層学習における自己認識機構に触発されたGLRは、従来の一様選択の代わりに特徴検出によって画像パッチを抽出する。
時間・周波数・スペクトル次元におけるGLRの有効性を実験的に実証した。
論文 参考訳(メタデータ) (2023-01-08T14:12:51Z) - Graph Attention Multi-Layer Perceptron [12.129233487384965]
グラフニューラルネットワーク(GNN)は、最近、多くのグラフベースのアプリケーションで最先端のパフォーマンスを達成した。
スケーラブルでフレキシブルなグラフ注意多層パーセプトロン(GAMLP)を導入する。
GAMLPの各ノードは3つの原則による受容野の注意によって柔軟で適応的であり、受信野の異なる大きさに伝播する特徴を利用する。
論文 参考訳(メタデータ) (2021-08-23T11:56:20Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。