論文の概要: Stretching Beyond the Obvious: A Gradient-Free Framework to Unveil the Hidden Landscape of Visual Invariance
- arxiv url: http://arxiv.org/abs/2506.17040v1
- Date: Fri, 20 Jun 2025 14:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.492017
- Title: Stretching Beyond the Obvious: A Gradient-Free Framework to Unveil the Hidden Landscape of Visual Invariance
- Title(参考訳): 目立たぬものを超えたストレッチング - 隠れた風景の視覚的不変性を明らかにするためのグラディエントフリーフレームワーク
- Authors: Lorenzo Tausani, Paolo Muratore, Morgan B. Talbot, Giacomo Amerio, Gabriel Kreiman, Davide Zoccolan,
- Abstract要約: ストレッチ・アンド・スキーズ(Stretch-and-Squeeze、SnS)は、単位の不均一な風景を特徴づける、バイアスのない、モデルに依存しない、勾配のないフレームワークである。
SnSは、単位活性化を保ちながら、与えられた処理段階における基準刺激の表現を最大に変化させる摂動を求める。
畳み込みニューラルネットワーク(CNN)の適用により、SnSは、アフィン変換によって生成されたものよりもピクセル空間内の参照画像から得られる画像のバリエーションを明らかにした。
- 参考スコア(独自算出の注目度): 9.346027495459039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncovering which features' combinations high-level visual units encode is critical to understand how images are transformed into representations that support recognition. While existing feature visualization approaches typically infer a unit's most exciting images, this is insufficient to reveal the manifold of transformations under which responses remain invariant, which is key to generalization in vision. Here we introduce Stretch-and-Squeeze (SnS), an unbiased, model-agnostic, and gradient-free framework to systematically characterize a unit's invariance landscape and its vulnerability to adversarial perturbations in both biological and artificial visual systems. SnS frames these transformations as bi-objective optimization problems. To probe invariance, SnS seeks image perturbations that maximally alter the representation of a reference stimulus in a given processing stage while preserving unit activation. To probe adversarial sensitivity, SnS seeks perturbations that minimally alter the stimulus while suppressing unit activation. Applied to convolutional neural networks (CNNs), SnS revealed image variations that were further from a reference image in pixel-space than those produced by affine transformations, while more strongly preserving the target unit's response. The discovered invariant images differed dramatically depending on the choice of image representation used for optimization: pixel-level changes primarily affected luminance and contrast, while stretching mid- and late-layer CNN representations altered texture and pose respectively. Notably, the invariant images from robust networks were more recognizable by human subjects than those from standard networks, supporting the higher fidelity of robust CNNs as models of the visual system.
- Abstract(参考訳): ハイレベルな視覚ユニットをエンコードする特徴の組み合わせを明らかにすることは、画像が認識をサポートする表現にどのように変換されるかを理解するために重要である。
既存の特徴可視化アプローチでは、一般にユニットの最もエキサイティングなイメージを推測するが、反応が不変であり続ける変換の多様体を明らかにするには不十分である。
SnS(Stretch-and-Squeeze)は、非バイアスで、モデルに依存しない、勾配のないフレームワークで、ユニットの不均一な風景と、生物学的および人工的な視覚システムにおける敵の摂動に対する脆弱性を体系的に特徴付ける。
SnS はこれらの変換を双目的最適化問題とみなしている。
不変性を調べるために、SnSは、単位活性化を保ちながら、所定の処理段階における基準刺激の表現を最大に変化させる画像摂動を求める。
敵の感度を調査するために、SnSはユニットの活性化を抑えながら刺激を最小限に変化させる摂動を求める。
畳み込みニューラルネットワーク(CNN)に適用すると、SnSは、アフィン変換によって生成されたものよりも、ピクセル空間内の参照画像から得られる画像のバリエーションを明らかにし、ターゲットユニットの応答をより強く保存した。
画素レベルの変化は主に輝度とコントラストに影響を及ぼし、中層と後期層のCNN表現はテクスチャとポーズがそれぞれ変化した。
特に、ロバストネットワークからの不変画像は、標準的なネットワークよりも人間によって認識され、視覚システムのモデルとしてのロバストCNNの高忠実性をサポートする。
関連論文リスト
- Unwarping Screen Content Images via Structure-texture Enhancement Network and Transformation Self-estimation [2.404130767806698]
画面コンテンツ画像(SCI)に対する変換自己推定を用いた構造テクスチャ拡張ネットワーク(STEN)を提案する。
STENはB-スプラインの暗黙的ニューラル表現モジュールと変換誤差推定と自己補正アルゴリズムを統合している。
パブリックなSCIデータセットの実験は、我々のアプローチが最先端の手法を大きく上回っていることを示している。
論文 参考訳(メタデータ) (2025-04-21T13:59:44Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Truly shift-equivariant convolutional neural networks with adaptive
polyphase upsampling [28.153820129486025]
画像分類において、適応型多相ダウンサンプリング(APS-D)はCNNを完全に不変にするために最近提案されている。
本稿では,従来のアップサンプリングの非線形拡張であるaps-u(adaptive polyphase upsampling)を提案する。
論文 参考訳(メタデータ) (2021-05-09T22:33:53Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z) - Feature Lenses: Plug-and-play Neural Modules for
Transformation-Invariant Visual Representations [33.02732996829386]
畳み込みニューラルネットワーク(CNN)は、様々な画像変換の下で脆弱であることが知られている。
トレーニングされたモデルに簡単にプラグイン可能なアドホックモジュールのセットである"Feature Lenses"を提案する。
各レンズは、特定の変換の下で変換された画像の特徴を考慮し、元の特徴を再構成する。
論文 参考訳(メタデータ) (2020-04-12T06:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。