論文の概要: Feature Lenses: Plug-and-play Neural Modules for
Transformation-Invariant Visual Representations
- arxiv url: http://arxiv.org/abs/2004.05554v1
- Date: Sun, 12 Apr 2020 06:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 05:31:08.003712
- Title: Feature Lenses: Plug-and-play Neural Modules for
Transformation-Invariant Visual Representations
- Title(参考訳): 特徴レンズ:変換不変な視覚表現のためのプラグアンドプレイニューラルモジュール
- Authors: Shaohua Li, Xiuchao Sui, Jie Fu, Yong Liu, Rick Siow Mong Goh
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、様々な画像変換の下で脆弱であることが知られている。
トレーニングされたモデルに簡単にプラグイン可能なアドホックモジュールのセットである"Feature Lenses"を提案する。
各レンズは、特定の変換の下で変換された画像の特徴を考慮し、元の特徴を再構成する。
- 参考スコア(独自算出の注目度): 33.02732996829386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNNs) are known to be brittle under various
image transformations, including rotations, scalings, and changes of lighting
conditions. We observe that the features of a transformed image are drastically
different from the ones of the original image. To make CNNs more invariant to
transformations, we propose "Feature Lenses", a set of ad-hoc modules that can
be easily plugged into a trained model (referred to as the "host model"). Each
individual lens reconstructs the original features given the features of a
transformed image under a particular transformation. These lenses jointly
counteract feature distortions caused by various transformations, thus making
the host model more robust without retraining. By only updating lenses, the
host model is freed from iterative updating when facing new transformations
absent in the training data; as feature semantics are preserved, downstream
applications, such as classifiers and detectors, automatically gain robustness
without retraining. Lenses are trained in a self-supervised fashion with no
annotations, by minimizing a novel "Top-K Activation Contrast Loss" between
lens-transformed features and original features. Evaluated on ImageNet,
MNIST-rot, and CIFAR-10, Feature Lenses show clear advantages over baseline
methods.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)は、回転、スケーリング、照明条件の変化など様々な画像変換の下でも不安定であることが知られている。
変換された画像の特徴と元の画像の特徴とは大きく異なることが観察された。
cnnを変換にもっと不変にするために、我々は、訓練されたモデルに簡単にプラグインできるアドホックモジュールのセットである「機能レンズ」を提案している(「ホストモデル」と呼ばれる)。
個々のレンズは、特定の変換の下での変換画像の特徴を与えられた元の特徴を再構築する。
これらのレンズは様々な変換によって生じる特徴歪みと相反するので、ホストモデルは再トレーニングせずにより堅牢になる。
トレーニングデータに存在しない新しい変換に直面すると、ホストモデルは反復的な更新から解放される。特徴セマンティクスが保存されるため、分類器や検出器のような下流アプリケーションでは、再トレーニングせずに自動的に堅牢性が向上する。
レンズは、レンズ変換された特徴とオリジナル特徴の間の新しい「トップkアクティベーションコントラスト損失」を最小化することで、注釈なしで自己教師付きで訓練される。
ImageNet、MNIST-rot、CIFAR-10で評価された特徴レンズは、ベースライン法よりも明確な利点を示している。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Invariant Shape Representation Learning For Image Classification [41.610264291150706]
本稿では,不変形状表現学習(ISRL)を初めて開発した新しいフレームワークを提案する。
我々のモデルISRLは、変形可能な変換によってパラメータ化される潜在形状空間における不変特徴を共同でキャプチャするように設計されている。
異なる環境にターゲット変数に関して不変な機能を埋め込むことで、我々のモデルは一貫してより正確な予測を提供する。
論文 参考訳(メタデータ) (2024-11-19T03:39:43Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - B-cos Alignment for Inherently Interpretable CNNs and Vision
Transformers [97.75725574963197]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
このような変換の列は、完全なモデル計算を忠実に要約する単一の線形変換を誘導することを示す。
得られた説明は視覚的品質が高く,定量的解釈可能性指標下では良好に機能することを示す。
論文 参考訳(メタデータ) (2023-06-19T12:54:28Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Quantised Transforming Auto-Encoders: Achieving Equivariance to
Arbitrary Transformations in Deep Networks [23.673155102696338]
畳み込みニューラルネットワーク(CNN)は画像翻訳と等価である。
埋め込みは任意の等式関係を同時に従うオートエンコーダアーキテクチャを提案する。
いくつかのデータセット上で入力画像の変換版の再レンダリングに成功した結果を示す。
論文 参考訳(メタデータ) (2021-11-25T02:26:38Z) - Robust Training Using Natural Transformation [19.455666609149567]
画像分類アルゴリズムのロバスト性を改善するための逆学習手法であるNaTraを提案する。
クラス識別とは無関係な入力画像の属性をターゲティングし、それらの属性を操作して実世界の自然変換を模倣します。
本手法の有効性を,よく訓練されたGANから導かれる非絡み合った潜在表現を用いて実証する。
論文 参考訳(メタデータ) (2021-05-10T01:56:03Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z) - Robustness to Transformations Across Categories: Is Robustness To
Transformations Driven by Invariant Neural Representations? [1.7251667223970861]
ディープ畳み込みニューラルネットワーク(DCNN)は、変換中のオブジェクトを認識するという、印象的な堅牢性を示している。
そのような堅牢性を説明する仮説は、DCNNが画像が変換されたときに変化しない不変な神経表現を発達させるというものである。
本稿では, 変形に対する堅牢性を高めることを利用して, 不変なニューラル表現が出現する条件について検討する。
論文 参考訳(メタデータ) (2020-06-30T21:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。