論文の概要: Does resistance to Style-Transfer equal Shape Bias? Evaluating Shape
Bias by Distorted Shape
- arxiv url: http://arxiv.org/abs/2310.07555v1
- Date: Wed, 11 Oct 2023 15:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 22:20:20.034076
- Title: Does resistance to Style-Transfer equal Shape Bias? Evaluating Shape
Bias by Distorted Shape
- Title(参考訳): 形状バイアスに対する抵抗は等しいか?
歪み形状による形状バイアスの評価
- Authors: Ziqi Wen, Tianqin Li, Tai Sing Lee
- Abstract要約: モデルの形状バイアスを評価するための最新のベンチマークは、スタイル変換された画像のセットである。
スタイル伝達画像で訓練されたネットワークは、実際にスタイルを無視することを学ぶが、その形状バイアスは、主に局所的な形状から生じる。
我々は,大域的形状感度の代替測定手段として,歪形状試験ベンチ(DiST)を提供する。
- 参考スコア(独自算出の注目度): 6.796386356785536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models are known to exhibit a strong texture bias, while human
tends to rely heavily on global shape for object recognition. The current
benchmark for evaluating a model's shape bias is a set of style-transferred
images with the assumption that resistance to the attack of style transfer is
related to the development of shape sensitivity in the model. In this work, we
show that networks trained with style-transfer images indeed learn to ignore
style, but its shape bias arises primarily from local shapes. We provide a
Distorted Shape Testbench (DiST) as an alternative measurement of global shape
sensitivity. Our test includes 2400 original images from ImageNet-1K, each of
which is accompanied by two images with the global shapes of the original image
distorted while preserving its texture via the texture synthesis program. We
found that (1) models that performed well on the previous shape bias evaluation
do not fare well in the proposed DiST; (2) the widely adopted ViT models do not
show significant advantages over Convolutional Neural Networks (CNNs) on this
benchmark despite that ViTs rank higher on the previous shape bias tests. (3)
training with DiST images bridges the significant gap between human and
existing SOTA models' performance while preserving the models' accuracy on
standard image classification tasks; training with DiST images and
style-transferred images are complementary, and can be combined to train
network together to enhance both the global and local shape sensitivity of the
network. Our code will be host at: https://github.com/leelabcnbc/DiST
- Abstract(参考訳): ディープラーニングモデルは強いテクスチャバイアスを示すことが知られており、人間はオブジェクト認識のグローバルな形状に大きく依存する傾向がある。
モデル形状バイアスを評価するための現在のベンチマークは、モデルにおける形状感度の発達とスタイル伝達に対する耐性が関係していると仮定した、スタイル伝達画像のセットである。
本研究では,スタイル伝達画像で訓練されたネットワークが,スタイルを無視する傾向にあることを示すが,その形状バイアスは主に局所的な形状から生じる。
全球形状感度の代替測定として,変形形状試験ベンチ(dist)を提案する。
本テストでは,ImageNet-1Kから得られた2400枚の原画像と,テクスチャ合成プログラムを通じてテクスチャを保ちながら変形した原画像のグローバルな形状の2つの画像を含む。
その結果,(1)従来の形状バイアス評価でよく評価されたモデルは,提案するdistではうまく機能せず,(2)広く採用されているvitモデルは,従来の形状バイアステストでvitが上位であるにもかかわらず,このベンチマークでは畳み込みニューラルネットワーク(cnns)よりも大きなアドバンテージを示さないことがわかった。
(3)DST画像を用いたトレーニングは、標準的な画像分類タスクにおいてモデルの精度を保ちながら、人間と既存のSOTAモデルの顕著なギャップを埋める。
私たちのコードは次の通りホストされます。
関連論文リスト
- T-Pixel2Mesh: Combining Global and Local Transformer for 3D Mesh Generation from a Single Image [84.08705684778666]
本稿では,P2Mの粗大なアプローチにインスパイアされたトランスフォーマーブーストアーキテクチャT-Pixel2Meshを提案する。
具体的には,大域変換器を用いて局所的な形状を制御し,局所的な幾何学的詳細を洗練させる。
ShapeNetの実験では最先端の性能が実証され,実世界のデータでは一般化能力が示された。
論文 参考訳(メタデータ) (2024-03-20T15:14:22Z) - DeblurDiNAT: A Generalizable Transformer for Perceptual Image Deblurring [1.5124439914522694]
DeblurDiNATは汎用的で効率的なエンコーダ・デコーダ変換器であり、地上の真実に近いクリーンな画像を復元する。
本稿では,線形フィードフォワードネットワークと非線形デュアルステージ機能融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-19T21:31:31Z) - Latents2Semantics: Leveraging the Latent Space of Generative Models for
Localized Style Manipulation of Face Images [25.82631308991067]
顔画像中の関心領域のスタイル属性の局所的編集を容易にする生成オートエンコーダモデルであるLatents2Semantics Autoencoder (L2SAE)を紹介する。
L2SAEは、符号化された画像の構造とスタイル情報に対する別個の潜在表現を学習し、選択されたROIの構造保存スタイル編集を可能にする。
複数のデータセットからサンプリングされたテスト画像を用いて、選択的なスタイル編集やスワップなど、複数のアプリケーションに対して、定性的かつ定量的な結果を提供する。
論文 参考訳(メタデータ) (2023-12-22T20:06:53Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Spectral Normalization and Dual Contrastive Regularization for
Image-to-Image Translation [9.029227024451506]
二重コントラスト正規化とスペクトル正規化に基づく新しい未ペアI2I翻訳フレームワークを提案する。
SN-DCRの有効性を評価するための総合的な実験を行い、本手法が複数のタスクにおいてSOTAを実現することを実証した。
論文 参考訳(メタデータ) (2023-04-22T05:22:24Z) - Arbitrary Style Transfer with Structure Enhancement by Combining the
Global and Local Loss [51.309905690367835]
本稿では,グローバルな損失と局所的な損失を組み合わせ,構造拡張を伴う任意のスタイル転送手法を提案する。
実験結果から,視覚効果の優れた高画質画像が生成できることが示唆された。
論文 参考訳(メタデータ) (2022-07-23T07:02:57Z) - Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。
まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。
第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文 参考訳(メタデータ) (2021-01-04T09:40:54Z) - Informative Dropout for Robust Representation Learning: A Shape-bias
Perspective [84.30946377024297]
Informative Dropout (InfoDrop) と呼ばれる軽量モデル非依存の手法を提案し, 解釈性の向上とテクスチャバイアスの低減を図る。
具体的には、画像中の局所的な自己情報に基づいて形状からテクスチャを識別し、Dropoutのようなアルゴリズムを用いて局所的なテクスチャからのモデル出力をデコレーションする。
論文 参考訳(メタデータ) (2020-08-10T16:52:24Z) - A U-Net Based Discriminator for Generative Adversarial Networks [86.67102929147592]
GAN(Generative Adversarial Network)のための代替U-Netベースの識別器アーキテクチャを提案する。
提案アーキテクチャにより,合成画像のグローバルコヒーレンスを維持しつつ,画素単位の詳細なフィードバックを生成元に提供することができる。
斬新な判別器は、標準分布と画像品質の指標の観点から、最先端の技術を向上する。
論文 参考訳(メタデータ) (2020-02-28T11:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。