論文の概要: Does resistance to style-transfer equal Global Shape Bias? Measuring
network sensitivity to global shape configuration
- arxiv url: http://arxiv.org/abs/2310.07555v3
- Date: Thu, 29 Feb 2024 15:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:32:32.224449
- Title: Does resistance to style-transfer equal Global Shape Bias? Measuring
network sensitivity to global shape configuration
- Title(参考訳): スタイル変換に対する抵抗はグローバル形状バイアスに等しいか?
グローバル形状構成におけるネットワーク感度の測定
- Authors: Ziqi Wen, Tianqin Li, Zhi Jing, Tai Sing Lee
- Abstract要約: モデル全体の形状バイアスを評価するための最新のベンチマークは、スタイル変換された画像のセットである。
スタイル伝達画像で訓練されたネットワークは、実際にスタイルを無視することを学ぶが、その形状バイアスは、主に局所的な詳細から生じる。
- 参考スコア(独自算出の注目度): 6.047146237332764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models are known to exhibit a strong texture bias, while human
tends to rely heavily on global shape structure for object recognition. The
current benchmark for evaluating a model's global shape bias is a set of
style-transferred images with the assumption that resistance to the attack of
style transfer is related to the development of global structure sensitivity in
the model. In this work, we show that networks trained with style-transfer
images indeed learn to ignore style, but its shape bias arises primarily from
local detail. We provide a \textbf{Disrupted Structure Testbench (DiST)} as a
direct measurement of global structure sensitivity. Our test includes 2400
original images from ImageNet-1K, each of which is accompanied by two images
with the global shapes of the original image disrupted while preserving its
texture via the texture synthesis program. We found that \textcolor{black}{(1)
models that performed well on the previous cue-conflict dataset do not fare
well in the proposed DiST; (2) the supervised trained Vision Transformer (ViT)
lose its global spatial information from positional embedding, leading to no
significant advantages over Convolutional Neural Networks (CNNs) on DiST. While
self-supervised learning methods, especially mask autoencoder significantly
improves the global structure sensitivity of ViT. (3) Improving the global
structure sensitivity is orthogonal to resistance to style-transfer, indicating
that the relationship between global shape structure and local texture detail
is not an either/or relationship. Training with DiST images and
style-transferred images are complementary, and can be combined to train
network together to enhance the global shape sensitivity and robustness of
local features.} Our code will be hosted in github:
https://github.com/leelabcnbc/DiST
- Abstract(参考訳): ディープラーニングモデルは強いテクスチャバイアスを示すことが知られており、人間はオブジェクト認識のグローバルな形状構造に大きく依存する傾向がある。
モデルのグローバルな形状バイアスを評価するための現在のベンチマークは、スタイル伝達の攻撃に対する抵抗がモデルにおけるグローバルな構造感度の発達に関連しているという仮定で、スタイル変換された画像の集合である。
本研究では,スタイル伝達画像で訓練されたネットワークが,スタイルを無視する傾向にあることを示すが,その形状バイアスは主に局所的な詳細から生じる。
グローバルな構造感度の直接測定として, \textbf{Disrupted Structure Testbench (DiST) を提供する。
実験では,ImageNet-1Kから得られた2400枚の原画像と,テクスチャ合成プログラムを通じてテクスチャを保ちながら,原画像のグローバルな形状の2つの画像を添付した。
2) 教師付き訓練された視覚トランスフォーマー (vit) は位置埋め込みから全体空間情報を失うため, dist上の畳み込みニューラルネットワーク (convolutional neural networks, cnns) よりも大きなアドバンテージは得られない。
自己教師付き学習法では特にマスクオートエンコーダはvitのグローバル構造感度を大幅に向上させる。
3)大域構造感度の向上はスタイル伝達に対する抵抗に直交し,大域的形状構造と局所的テクスチャディテールの関係は/または関係ではないことを示す。
DiST画像とスタイル変換画像のトレーニングは相補的であり、ネットワークのトレーニングと組み合わせることで、局所的な特徴のグローバルな形状感度と堅牢性を高めることができる。
コードはgithubでホストされます。 https://github.com/leelabcnbc/dist.com/
関連論文リスト
- T-Pixel2Mesh: Combining Global and Local Transformer for 3D Mesh Generation from a Single Image [84.08705684778666]
本稿では,P2Mの粗大なアプローチにインスパイアされたトランスフォーマーブーストアーキテクチャT-Pixel2Meshを提案する。
具体的には,大域変換器を用いて局所的な形状を制御し,局所的な幾何学的詳細を洗練させる。
ShapeNetの実験では最先端の性能が実証され,実世界のデータでは一般化能力が示された。
論文 参考訳(メタデータ) (2024-03-20T15:14:22Z) - DeblurDiNAT: A Generalizable Transformer for Perceptual Image Deblurring [1.5124439914522694]
DeblurDiNATは汎用的で効率的なエンコーダ・デコーダ変換器であり、地上の真実に近いクリーンな画像を復元する。
本稿では,線形フィードフォワードネットワークと非線形デュアルステージ機能融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-19T21:31:31Z) - Latents2Semantics: Leveraging the Latent Space of Generative Models for
Localized Style Manipulation of Face Images [25.82631308991067]
顔画像中の関心領域のスタイル属性の局所的編集を容易にする生成オートエンコーダモデルであるLatents2Semantics Autoencoder (L2SAE)を紹介する。
L2SAEは、符号化された画像の構造とスタイル情報に対する別個の潜在表現を学習し、選択されたROIの構造保存スタイル編集を可能にする。
複数のデータセットからサンプリングされたテスト画像を用いて、選択的なスタイル編集やスワップなど、複数のアプリケーションに対して、定性的かつ定量的な結果を提供する。
論文 参考訳(メタデータ) (2023-12-22T20:06:53Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Spectral Normalization and Dual Contrastive Regularization for
Image-to-Image Translation [9.029227024451506]
二重コントラスト正規化とスペクトル正規化に基づく新しい未ペアI2I翻訳フレームワークを提案する。
SN-DCRの有効性を評価するための総合的な実験を行い、本手法が複数のタスクにおいてSOTAを実現することを実証した。
論文 参考訳(メタデータ) (2023-04-22T05:22:24Z) - Arbitrary Style Transfer with Structure Enhancement by Combining the
Global and Local Loss [51.309905690367835]
本稿では,グローバルな損失と局所的な損失を組み合わせ,構造拡張を伴う任意のスタイル転送手法を提案する。
実験結果から,視覚効果の優れた高画質画像が生成できることが示唆された。
論文 参考訳(メタデータ) (2022-07-23T07:02:57Z) - Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。
まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。
第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文 参考訳(メタデータ) (2021-01-04T09:40:54Z) - Informative Dropout for Robust Representation Learning: A Shape-bias
Perspective [84.30946377024297]
Informative Dropout (InfoDrop) と呼ばれる軽量モデル非依存の手法を提案し, 解釈性の向上とテクスチャバイアスの低減を図る。
具体的には、画像中の局所的な自己情報に基づいて形状からテクスチャを識別し、Dropoutのようなアルゴリズムを用いて局所的なテクスチャからのモデル出力をデコレーションする。
論文 参考訳(メタデータ) (2020-08-10T16:52:24Z) - A U-Net Based Discriminator for Generative Adversarial Networks [86.67102929147592]
GAN(Generative Adversarial Network)のための代替U-Netベースの識別器アーキテクチャを提案する。
提案アーキテクチャにより,合成画像のグローバルコヒーレンスを維持しつつ,画素単位の詳細なフィードバックを生成元に提供することができる。
斬新な判別器は、標準分布と画像品質の指標の観点から、最先端の技術を向上する。
論文 参考訳(メタデータ) (2020-02-28T11:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。