論文の概要: Semi-Unified Sparse Dictionary Learning with Learnable Top-K LISTA and FISTA Encoders
- arxiv url: http://arxiv.org/abs/2511.10575v1
- Date: Fri, 14 Nov 2025 01:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.938649
- Title: Semi-Unified Sparse Dictionary Learning with Learnable Top-K LISTA and FISTA Encoders
- Title(参考訳): 学習可能なトップKLISTAとFISTAエンコーダを用いた半統一スパース辞書学習
- Authors: Fengsheng Lin, Shengyi Yan, Trac Duy Tran,
- Abstract要約: 本稿では,古典的なスパースモデルと近代的な深層建築のギャップを埋める半統一的なスパース辞書学習フレームワークを提案する。
具体的には、厳格なTop-K$ LISTAとその凸FISTAベースの変種(LISTAConv)をLC-KSVD2モデルに統合する。
この統一された設計は、効率的で差別化可能なトレーニングの恩恵を受けながら、従来のスパースコーディングの解釈可能性を維持している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a semi-unified sparse dictionary learning framework that bridges the gap between classical sparse models and modern deep architectures. Specifically, the method integrates strict Top-$K$ LISTA and its convex FISTA-based variant (LISTAConv) into the discriminative LC-KSVD2 model, enabling co-evolution between the sparse encoder and the dictionary under supervised or unsupervised regimes. This unified design retains the interpretability of traditional sparse coding while benefiting from efficient, differentiable training. We further establish a PALM-style convergence analysis for the convex variant, ensuring theoretical stability under block alternation. Experimentally, our method achieves 95.6\% on CIFAR-10, 86.3\% on CIFAR-100, and 88.5\% on TinyImageNet with faster convergence and lower memory cost ($<$4GB GPU). The results confirm that the proposed LC-KSVD2 + LISTA/LISTAConv pipeline offers an interpretable and computationally efficient alternative for modern deep architectures.
- Abstract(参考訳): 本稿では,古典的なスパースモデルと近代的な深層建築のギャップを埋める半統一的なスパース辞書学習フレームワークを提案する。
具体的には、厳格なTop-K$ LISTAとその凸FISTAベースの変種(LISTAConv)を差別的なLC-KSVD2モデルに統合し、監督または監督されていない規則の下でスパースエンコーダと辞書の共進化を可能にする。
この統一された設計は、効率的で差別化可能なトレーニングの恩恵を受けながら、従来のスパースコーディングの解釈可能性を維持している。
さらに、凸変種に対するPALM型収束解析を確立し、ブロック交互に理論的な安定性を確保する。
実験により,CIFAR-10では95.6\%,CIFAR-100では86.3\%,TinyImageNetでは88.5\%,高速収束と低メモリコスト(4GB GPU)を実現した。
提案したLC-KSVD2 + LISTA/LISTAConvパイプラインは、現代のディープアーキテクチャに対して、解釈可能で計算的に効率的な代替手段を提供することを確認した。
関連論文リスト
- Variational Learning ISTA [13.894911545678635]
本研究では,センサ行列条件の異なるスパース表現と再構成を学習するためのアーキテクチャを提案する。
変分学習ISTA(VLISTA)と呼ばれる変分アプローチを用いて辞書上の分布を学習する。
結果として、VLISTAは、辞書分布と再構成アルゴリズムを様々な知覚行列で共同で学習する確率的方法を提供する。
論文 参考訳(メタデータ) (2024-07-09T08:17:06Z) - Sparsity-Constraint Optimization via Splicing Iteration [1.3622424109977902]
我々は sPlicing itEration (SCOPE) を用いたスペーサリティ制約最適化アルゴリズムを開発した。
SCOPEはパラメータをチューニングせずに効率的に収束する。
SCOPEを用いて2次最適化を解き、スパース分類器を学習し、バイナリ変数のスパースマルコフネットワークを復元する。
C++実装に基づいたオープンソースのPythonパッケージskscopeがGitHubで公開されている。
論文 参考訳(メタデータ) (2024-06-17T18:34:51Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - Revisiting Sparse Convolutional Model for Visual Recognition [40.726494290922204]
本稿では,画像分類のためのスパース畳み込みモデルについて再検討する。
CIFAR-10, CIFAR-100, ImageNetデータセット上でも同様に強力な実験性能を示した。
論文 参考訳(メタデータ) (2022-10-24T04:29:21Z) - Hybrid ISTA: Unfolding ISTA With Convergence Guarantees Using Free-Form
Deep Neural Networks [50.193061099112626]
学習可能なパラメータを持つディープニューラルネットワーク(DNN)として反復アルゴリズムを展開させることで、線形逆問題を解決することを約束している。
既存のISTAベースのアンフォールドアルゴリズムは、収束を保証するために部分重結合構造で繰り返し更新するネットワークアーキテクチャを制限する。
本論文は,ISTAに基づく非折り畳みアルゴリズムにおける自由形式DNNを実現するための収束証明可能なフレームワークを初めて提供するものである。
論文 参考訳(メタデータ) (2022-04-25T13:17:57Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。