論文の概要: Interpretable and Sparse Linear Attention with Decoupled Membership-Subspace Modeling via MCR2 Objective
- arxiv url: http://arxiv.org/abs/2601.17042v1
- Date: Tue, 20 Jan 2026 10:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.021309
- Title: Interpretable and Sparse Linear Attention with Decoupled Membership-Subspace Modeling via MCR2 Objective
- Title(参考訳): MCR2オブジェクトによる非結合メンバシップサブスペースモデリングによる解釈とスパース線形アテンション
- Authors: Tianyuan Liu, Libin Hou, Linyuan Wang, Bin Yan,
- Abstract要約: 既存の設計では、MCR2における「メンバーシップ行列」と「サブスペース行列U」の密結合は、不正なトークン射影の下で冗長な符号化を引き起こす。
我々は、MCR2目標における「メンバーシップ行列」と「サブスペースU」の機能的関係を分離し、解釈可能なスパース線形アテンション演算子を導出する。
実験結果から,Token Statistics TransformerのアテンションモジュールをDMSAに置き換えれば,符号化速度が向上し,ImageNet-1Kデータセット上のトップ1精度が1.08%~1.45%向上することがわかった。
- 参考スコア(独自算出の注目度): 4.405544337160343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximal Coding Rate Reduction (MCR2)-driven white-box transformer, grounded in structured representation learning, unifies interpretability and efficiency, providing a reliable white-box solution for visual modeling. However, in existing designs, tight coupling between "membership matrix" and "subspace matrix U" in MCR2 causes redundant coding under incorrect token projection. To this end, we decouple the functional relationship between the "membership matrix" and "subspaces U" in the MCR2 objective and derive an interpretable sparse linear attention operator from unrolled gradient descent of the optimized objective. Specifically, we propose to directly learn the membership matrix from inputs and subsequently derive sparse subspaces from the fullspace S. Consequently, gradient unrolling of the optimized MCR2 objective yields an interpretable sparse linear attention operator: Decoupled Membership-Subspace Attention (DMSA). Experimental results on visual tasks show that simply replacing the attention module in Token Statistics Transformer (ToST) with DMSA (we refer to as DMST) not only achieves a faster coding reduction rate but also outperforms ToST by 1.08%-1.45% in top-1 accuracy on the ImageNet-1K dataset. Compared with vanilla Transformer architectures, DMST exhibits significantly higher computational efficiency and interpretability.
- Abstract(参考訳): 構造化表現学習を基盤とした最大符号化レート削減(MCR2)駆動のホワイトボックス変換器は、解釈性と効率を統一し、ビジュアルモデリングのための信頼性の高いホワイトボックスソリューションを提供する。
しかし、既存の設計では、MCR2における「メンバーシップ行列」と「サブスペース行列U」の密結合は、不正なトークン射影の下で冗長な符号化を引き起こす。
この目的のために、MCR2目的の「メンバーシップ行列」と「サブスペースU」の関数関係を分離し、最適化された目的の非線形勾配降下から解釈可能なスパース線形注意演算子を導出する。
具体的には、入力からメンバシップ行列を直接学習し、その後、全空間 S からスパース部分空間を導出することを提案する。
Token Statistics Transformer (ToST) の注目モジュールを DMSA に置き換えること(DMST と呼ぶ)は、より高速な符号化削減率を達成するだけでなく、ImageNet-1K データセット上でトップ1の精度でToSTを1.08%-1.45%上回る結果となった。
バニラトランスフォーマーアーキテクチャと比較すると、DMSTは計算効率と解釈可能性を大幅に向上させる。
関連論文リスト
- IMSE: Efficient U-Net-based Speech Enhancement using Inception Depthwise Convolution and Amplitude-Aware Linear Attention [2.3959703715401903]
本稿では,系統的に最適化された超軽量ネットワークIMSEを提案する。
1) MET モジュールを Amplitude-Aware Linear Attention (MALA) に、2) Deformable Embedding (DE) モジュールを Inception Depthwise Convolution (IDConv) に置き換える。
実験では、IMSEはパラメータ数を16.8%(0.513Mから0.427M)削減し、PESQ測定値(3.373)の最先端技術に匹敵する競争性能を達成する。
論文 参考訳(メタデータ) (2025-11-18T14:11:54Z) - FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。
当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文 参考訳(メタデータ) (2025-05-23T14:37:00Z) - DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps [30.53564087005569]
弱教師付きセマンティックセグメンテーション(WSSS)は、典型的には限定的なセマンティックアノテーションを使用して、初期クラスアクティベーションマップ(CAM)を取得する。
クラスアクティベーション応答と高次元空間のセマンティック情報との結合が不十分なため、CAMはオブジェクト共起や不活性化の傾向にある。
本稿では,意味認識重み行列を用いて埋め込み表現を再構成する新しい手法である,埋め込み情報のデュアル最適化であるDOEIを提案する。
論文 参考訳(メタデータ) (2025-02-21T19:06:01Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Mode-wise Principal Subspace Pursuit and Matrix Spiked Covariance Model [13.082805815235975]
行列データに対して行次元と列次元の両方に隠れたバリエーションを抽出するために,モードワイド・プリンシパル・サブスペース・スーツ (MOP-UP) と呼ばれる新しいフレームワークを導入する。
提案フレームワークの有効性と実用性は、シミュレーションと実データの両方の実験を通して実証される。
論文 参考訳(メタデータ) (2023-07-02T13:59:47Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。