論文の概要: Towards Better Input Masking for Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2211.14646v1
- Date: Sat, 26 Nov 2022 19:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:31:21.000679
- Title: Towards Better Input Masking for Convolutional Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークの入力マスキング改善に向けて
- Authors: Sriram Balasubramanian and Soheil Feizi
- Abstract要約: 入力画像の一部を取り出して、黒やグレーのようなベースライン色に置き換えることが、通常、大きな分布シフトを引き起こす。
階層マスキング(Layer masking)と呼ばれるCNNのマスキング手法を考案し,非マスク入力のみでCNNの実行をシミュレートする。
- 参考スコア(独自算出の注目度): 57.23299893408475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to remove features from the input of machine learning models is
very important to understand and interpret model predictions. However, this is
non-trivial for vision models since masking out parts of the input image and
replacing them with a baseline color like black or grey typically causes large
distribution shifts. Masking may even make the model focus on the masking
patterns for its prediction rather than the unmasked portions of the image. In
recent work, it has been shown that vision transformers are less affected by
such issues as one can simply drop the tokens corresponding to the masked image
portions. They are thus more easily interpretable using techniques like LIME
which rely on input perturbation. Using the same intuition, we devise a masking
technique for CNNs called layer masking, which simulates running the CNN on
only the unmasked input. We find that our method is (i) much less disruptive to
the model's output and its intermediate activations, and (ii) much better than
commonly used masking techniques for input perturbation based interpretability
techniques like LIME. Thus, layer masking is able to close the interpretability
gap between CNNs and transformers, and even make CNNs more interpretable in
many cases.
- Abstract(参考訳): 機械学習モデルの入力から特徴を取り除く能力は、モデル予測を理解し解釈することが非常に重要である。
しかし、入力画像の一部をマスキングし、黒や灰色のようなベースライン色に置き換えることにより、視覚モデルにとってこれは非自明なことである。
マスキングは、画像の未加工部分ではなく、その予測のためのマスキングパターンにフォーカスするかもしれない。
近年の研究では、マスクされた画像部分に対応するトークンをドロップするだけで、視覚トランスフォーマーの影響を受けにくいことが示されている。
したがって、入力摂動に依存するLIMEのような手法により、より容易に解釈できる。
同じ直感を用いて,CNNを非マスク入力のみで動作させるレイヤマスキング(Layer masking)と呼ばれるCNNのマスキング手法を考案した。
私たちの方法は
(i)モデルの出力とその中間活性化に対してはるかに破壊的ではなく、
(II) LIMEのような入力摂動に基づく解釈可能性技術において, 一般的なマスキング手法よりもはるかに優れている。
したがって、層マスキングはCNNとトランスフォーマーの間の解釈可能性ギャップを埋めることができ、多くの場合CNNをより解釈しやすくする。
関連論文リスト
- Mask Guided Gated Convolution for Amodal Content Completion [0.0]
部分的な可視物体を再構成するモデルを提案する。
モデルではマスクを入力として取り、それを重み付けマスクと呼ぶ。
可視領域からより多くの注意を引くことで、我々のモデルはベースラインモデルよりも効果的に見えないパッチを予測することができる。
論文 参考訳(メタデータ) (2024-07-21T15:51:29Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - SMOOT: Saliency Guided Mask Optimized Online Training [3.024318849346373]
Saliency-Guided Training (SGT) 手法は、出力に基づいてモデルのトレーニングで顕著な特徴を強調しようとする。
SGTは入力を部分的にマスキングすることで、モデルの最終的な結果をより解釈できるようにする。
本稿では,トレーニング中の入力,精度,モデル損失に基づいて,マスク画像の最適個数を推定する手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T19:41:49Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Masked Face Inpainting Through Residual Attention UNet [0.7868449549351486]
本稿では,残像UNetを用いたブラインドマスク面塗装法を提案する。
残差ブロックは次の層に情報を供給し、2ホップ離れた層に直接入力し、消滅する勾配問題を解決する。
公開されているCelebAデータセットの実験は、提案モデルの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-09-19T08:49:53Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - RePaint: Inpainting using Denoising Diffusion Probabilistic Models [161.74792336127345]
Free-form Inpaintingは任意のバイナリマスクで指定された領域のイメージに新しいコンテンツを追加するタスクである。
RePaint: A Denoising Probabilistic Model (DDPM) を用いた塗装手法を提案する。
本手法は,標準的なマスクと極端マスクを用いて,顔と汎用画像の塗装の両面で検証する。
論文 参考訳(メタデータ) (2022-01-24T18:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。