論文の概要: Revisiting Sparse Convolutional Model for Visual Recognition
- arxiv url: http://arxiv.org/abs/2210.12945v1
- Date: Mon, 24 Oct 2022 04:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:38:32.561226
- Title: Revisiting Sparse Convolutional Model for Visual Recognition
- Title(参考訳): 視覚認識のためのスパース畳み込みモデルの再検討
- Authors: Xili Dai, Mingyang Li, Pengyuan Zhai, Shengbang Tong, Xingjian Gao,
Shao-Lun Huang, Zhihui Zhu, Chong You, Yi Ma
- Abstract要約: 本稿では,画像分類のためのスパース畳み込みモデルについて再検討する。
CIFAR-10, CIFAR-100, ImageNetデータセット上でも同様に強力な実験性能を示した。
- 参考スコア(独自算出の注目度): 40.726494290922204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite strong empirical performance for image classification, deep neural
networks are often regarded as ``black boxes'' and they are difficult to
interpret. On the other hand, sparse convolutional models, which assume that a
signal can be expressed by a linear combination of a few elements from a
convolutional dictionary, are powerful tools for analyzing natural images with
good theoretical interpretability and biological plausibility. However, such
principled models have not demonstrated competitive performance when compared
with empirically designed deep networks. This paper revisits the sparse
convolutional modeling for image classification and bridges the gap between
good empirical performance (of deep learning) and good interpretability (of
sparse convolutional models). Our method uses differentiable optimization
layers that are defined from convolutional sparse coding as drop-in
replacements of standard convolutional layers in conventional deep neural
networks. We show that such models have equally strong empirical performance on
CIFAR-10, CIFAR-100, and ImageNet datasets when compared to conventional neural
networks. By leveraging stable recovery property of sparse modeling, we further
show that such models can be much more robust to input corruptions as well as
adversarial perturbations in testing through a simple proper trade-off between
sparse regularization and data reconstruction terms. Source code can be found
at https://github.com/Delay-Xili/SDNet.
- Abstract(参考訳): 画像分類に強い経験的性能にもかかわらず、ディープニューラルネットワークはしばしば 'black box' と見なされ、解釈が困難である。
一方で、信号が畳み込み辞書から数個の要素の線形結合によって表現できると仮定したスパース畳み込みモデルは、理論的解釈性と生物学的な可能性の優れた自然画像の解析のための強力なツールである。
しかし、このようなモデルでは、経験的に設計されたディープネットワークと比較して競争性能は示されていない。
本稿では、画像分類のためのスパース畳み込みモデルを再検討し、優れた経験的性能(ディープラーニング)と優れた解釈可能性(スパース畳み込みモデル)のギャップを埋める。
提案手法では,従来のディープニューラルネットワークにおける標準畳み込みレイヤのドロップイン置換として,畳み込みスパース符号化から定義される微分可能な最適化層を用いる。
従来のニューラルネットワークと比較して,CIFAR-10,CIFAR-100,ImageNetのデータセットに対して,そのようなモデルが等しく強い実験性能を持つことを示す。
スパースモデリングの安定したリカバリ特性を利用することで、このようなモデルは、スパース正規化とデータ再構成項の単純な適切なトレードオフを通じて、入力汚損や、テストにおける敵対的摂動に対してより強固なものになることをさらに示します。
ソースコードはhttps://github.com/Delay-Xili/SDNetにある。
関連論文リスト
- Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - Towards Practical Control of Singular Values of Convolutional Layers [65.25070864775793]
畳み込みニューラルネットワーク(CNN)の訓練は容易であるが、一般化誤差や対向ロバスト性といった基本的な特性は制御が難しい。
最近の研究では、畳み込み層の特異値がそのような解像特性に顕著に影響を及ぼすことが示された。
我々は,レイヤ表現力の著しく低下を犠牲にして,先行技術の制約を緩和するための原則的アプローチを提供する。
論文 参考訳(メタデータ) (2022-11-24T19:09:44Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Self-interpretable Convolutional Neural Networks for Text Classification [5.55878488884108]
本論文では,ReLU-DNNに固有の局所線型モデルを用いて,テキスト分類問題に対する畳み込みニューラルネットワークの解釈手法を提案する。
提案手法は,より複雑なCNNモデルに対して,自己解釈可能で,同等の性能を有する擬似モデルを生成する。
論文 参考訳(メタデータ) (2021-05-18T15:19:59Z) - Tensor-Train Networks for Learning Predictive Modeling of
Multidimensional Data [0.0]
有望な戦略は、物理的および化学的用途で非常に成功したテンソルネットワークに基づいています。
本研究では, 多次元回帰モデルの重みをテンソルネットワークを用いて学習し, 強力なコンパクト表現を実現することを示した。
TT形式の重みを計算力の低減で近似するための最小二乗を交互に行うアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2021-01-22T16:14:38Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - Text-to-Image Generation with Attention Based Recurrent Neural Networks [1.2599533416395765]
我々は,安定なキャプションベース画像生成モデルを構築した。
実験はMicrosoftデータセット上で行われる。
その結果,提案手法は現代の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-01-18T12:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。