論文の概要: The Key to State Reduction in Linear Attention: A Rank-based Perspective
- arxiv url: http://arxiv.org/abs/2602.04852v1
- Date: Wed, 04 Feb 2026 18:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.688435
- Title: The Key to State Reduction in Linear Attention: A Rank-based Perspective
- Title(参考訳): リニアアテンションにおける国家の削減の鍵:ランクに基づく視点
- Authors: Philipp Nazari, T. Konstantin Rusch,
- Abstract要約: 最近の実験結果から、訓練された線形アテンションモデルの状態は、しばしば低ランク構造を示すことが示されている。
線形注意におけるランクの役割を理論的に分析し,クエリノイズを増幅することにより,効率の低いランクが検索誤差に影響を与えることを示した。
これらの理論的な知見に加えて、低ランク状態は、最小限の劣化だけで、訓練後を大幅に減少させることができると推測する。
- 参考スコア(独自算出の注目度): 8.006873922525275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear attention offers a computationally efficient yet expressive alternative to softmax attention. However, recent empirical results indicate that the state of trained linear attention models often exhibits a low-rank structure, suggesting that these models underexploit their capacity in practice. To illuminate this phenomenon, we provide a theoretical analysis of the role of rank in linear attention, revealing that low effective rank can affect retrieval error by amplifying query noise. In addition to these theoretical insights, we conjecture that the low-rank states can be substantially reduced post-training with only minimal performance degradation, yielding faster and more memory-efficient models. To this end, we propose a novel hardware-aware approach that structurally prunes key and query matrices, reducing the state size while retaining compatibility with existing CUDA kernels. We adapt several existing pruning strategies to fit our framework and, building on our theoretical analysis, propose a novel structured pruning method based on a rank-revealing QR decomposition. Our empirical results, evaluated across models of varying sizes and on various downstream tasks, demonstrate the effectiveness of our state reduction framework. We highlight that our framework enables the removal of 50% of the query and key channels at only a marginal increase in perplexity. The code for this project can be found at https://github.com/camail-official/LinearAttentionPruning.
- Abstract(参考訳): 線形アテンションは、ソフトマックスアテンションに代わる計算的に効率的だが表現力のある代替手段を提供する。
しかし、最近の実証実験の結果、訓練された線形アテンションモデルの状態はしばしば低ランク構造を示しており、これらのモデルは実際にその能力が過小評価されていることを示唆している。
この現象を照らすため、線形注意におけるランクの役割の理論解析を行い、クエリノイズを増幅することにより、効率の低いランクが検索誤差に影響を与えることを示した。
これらの理論的な知見に加えて、低ランク状態は性能劣化を最小限に抑え、より高速でメモリ効率の良いモデルが得られると推測する。
そこで本研究では,キーとクエリ行列を構造化し,既存のCUDAカーネルとの互換性を維持しつつ,状態サイズを小さくするハードウェア・アウェア・アプローチを提案する。
我々は,我々のフレームワークに適合する既存のプルーニング戦略をいくつか適用し,その理論解析に基づいて,ランクレベリングQR分解に基づく新しい構造化プルーニング手法を提案する。
異なるサイズのモデルと様々な下流タスクで評価された実験結果から, 状態還元フレームワークの有効性が示された。
我々のフレームワークは、クエリとキーチャネルの50%を、パープレキシティの限界的な増加で取り除くことができることを強調します。
このプロジェクトのコードはhttps://github.com/camail-official/LinearAttentionPruningで見ることができる。
関連論文リスト
- On the Limits of Layer Pruning for Generative Reasoning in LLMs [0.5437050212139086]
レイヤープルーニングは、大きな言語モデル(LLM)を圧縮でき、微調整をほとんどあるいは全く行わずに分類ベンチマークで強い性能を維持することができる。
多段階推論を必要とするタスクは,特に深度低減に敏感であることがわかった。
現実的なポストトレーニング制約の下では、教師付き微調整に基づく単純な緩和戦略を評価する。
論文 参考訳(メタデータ) (2026-02-02T11:57:22Z) - The Inlet Rank Collapse in Implicit Neural Representations: Diagnosis and Unified Remedy [30.776360295485762]
Inlicit Neural Representations (INR)は、連続信号モデリングに革命をもたらしたが、有限の訓練予算内で細かな詳細を回復するのに苦労している。
本稿では,低次元の入力座標が高次元の埋め込み空間にまたがらない現象である"Inlet Rank Collapse'"を識別するための構造診断フレームワークを提案する。
アーキテクチャの変更や計算オーバーヘッドを伴わずに、階層幅で表示ランクを拡大する最小主義的な方法であるランク展開初期化(Rランク展開初期化)を導出する。
論文 参考訳(メタデータ) (2026-02-02T01:38:19Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - C-SWAP: Explainability-Aware Structured Pruning for Efficient Neural Networks Compression [4.10373648742522]
プルーニング(英: Pruning)は、モデル構造におけるスパーシティを促進する技術である。
本稿では,説明可能な深層学習に依存する新しい一発プルーニングフレームワークを提案する。
提案手法はモデルサイズを大幅に削減し,性能への影響を最小限に抑え,微調整を不要とした。
論文 参考訳(メタデータ) (2025-10-21T13:40:11Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - A Unified Framework for Soft Threshold Pruning [27.853698217792456]
反復収縮閾値アルゴリズム(ISTA)を用いた暗黙の最適化問題としてソフトしきい値プルーニングを再構成する。
我々は,フレームワークに基づくしきい値スケジューリングの詳細な研究を通じて,最適なしきい値スケジューラを導出する。
原理的には、導出プルーニングアルゴリズムは、SGDで訓練された任意の数学的モデルをスパース化することができる。
論文 参考訳(メタデータ) (2023-02-25T08:16:14Z) - Towards Deeper Deep Reinforcement Learning [42.960199987696306]
コンピュータビジョンや自然言語処理では、最先端の強化学習アルゴリズムは小さな内在性のみを使用することが多い。
データセットのサイズが制限要因ではないことを示し、代わりに、SACのアクターが批判を通じて勾配を取る不安定性が原因であると主張する。
論文 参考訳(メタデータ) (2021-06-02T13:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。