Fugu-MT 論文翻訳(概要): Does resistance to Style-Transfer equal Shape Bias? Evaluating Shape Bias by Distorted Shape

論文の概要: Does resistance to Style-Transfer equal Shape Bias? Evaluating Shape Bias by Distorted Shape

arxiv url: http://arxiv.org/abs/2310.07555v1
Date: Wed, 11 Oct 2023 15:00:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 22:20:20.034076
Title: Does resistance to Style-Transfer equal Shape Bias? Evaluating Shape Bias by Distorted Shape
Title（参考訳）: 形状バイアスに対する抵抗は等しいか? 歪み形状による形状バイアスの評価
Authors: Ziqi Wen, Tianqin Li, Tai Sing Lee
Abstract要約: モデルの形状バイアスを評価するための最新のベンチマークは、スタイル変換された画像のセットである。スタイル伝達画像で訓練されたネットワークは、実際にスタイルを無視することを学ぶが、その形状バイアスは、主に局所的な形状から生じる。我々は,大域的形状感度の代替測定手段として,歪形状試験ベンチ(DiST)を提供する。
参考スコア（独自算出の注目度）: 6.796386356785536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning models are known to exhibit a strong texture bias, while human tends to rely heavily on global shape for object recognition. The current benchmark for evaluating a model's shape bias is a set of style-transferred images with the assumption that resistance to the attack of style transfer is related to the development of shape sensitivity in the model. In this work, we show that networks trained with style-transfer images indeed learn to ignore style, but its shape bias arises primarily from local shapes. We provide a Distorted Shape Testbench (DiST) as an alternative measurement of global shape sensitivity. Our test includes 2400 original images from ImageNet-1K, each of which is accompanied by two images with the global shapes of the original image distorted while preserving its texture via the texture synthesis program. We found that (1) models that performed well on the previous shape bias evaluation do not fare well in the proposed DiST; (2) the widely adopted ViT models do not show significant advantages over Convolutional Neural Networks (CNNs) on this benchmark despite that ViTs rank higher on the previous shape bias tests. (3) training with DiST images bridges the significant gap between human and existing SOTA models' performance while preserving the models' accuracy on standard image classification tasks; training with DiST images and style-transferred images are complementary, and can be combined to train network together to enhance both the global and local shape sensitivity of the network. Our code will be host at: https://github.com/leelabcnbc/DiST
Abstract（参考訳）: ディープラーニングモデルは強いテクスチャバイアスを示すことが知られており、人間はオブジェクト認識のグローバルな形状に大きく依存する傾向がある。モデル形状バイアスを評価するための現在のベンチマークは、モデルにおける形状感度の発達とスタイル伝達に対する耐性が関係していると仮定した、スタイル伝達画像のセットである。本研究では,スタイル伝達画像で訓練されたネットワークが,スタイルを無視する傾向にあることを示すが,その形状バイアスは主に局所的な形状から生じる。全球形状感度の代替測定として,変形形状試験ベンチ(dist)を提案する。本テストでは,ImageNet-1Kから得られた2400枚の原画像と,テクスチャ合成プログラムを通じてテクスチャを保ちながら変形した原画像のグローバルな形状の2つの画像を含む。その結果,(1)従来の形状バイアス評価でよく評価されたモデルは,提案するdistではうまく機能せず,(2)広く採用されているvitモデルは,従来の形状バイアステストでvitが上位であるにもかかわらず,このベンチマークでは畳み込みニューラルネットワーク(cnns)よりも大きなアドバンテージを示さないことがわかった。 (3)DST画像を用いたトレーニングは、標準的な画像分類タスクにおいてモデルの精度を保ちながら、人間と既存のSOTAモデルの顕著なギャップを埋める。私たちのコードは次の通りホストされます。

関連論文リスト

Transferring Styles for Reduced Texture Bias and Improved Robustness in Semantic Segmentation Networks [4.2875024530011085]
最近の研究では、画像分類におけるディープニューラルネットワーク(DNN)の形状とテクスチャバイアスについて研究している。本研究では, 画像分類におけるテクスチャバイアスを低減し, 画像劣化に対するロバスト性を向上することを示す。本研究では, セマンティックセグメンテーションにおいて, テクスチャの偏りを低減し, 画像の汚損や敵の攻撃に対して強固に頑健さを増すことを示した。
論文参考訳（メタデータ） (2025-07-14T13:02:19Z)
Visual Anagrams Reveal Hidden Differences in Holistic Shape Processing Across Vision Models [4.749824105387293]
構成形状スコア(CSS)による絶対構成能力の問題として形状評価を再放送する。 CSSは、完全に自己管理された言語対応のトランスフォーマーによって、幅広い構成上の感度を明らかにしている。本研究は, 形状とテクスチャの人工的な選択を強制することには, 真に堅牢で, 汎用的で, 人間のような視覚システムへの道が欠かせないことを示唆する。
論文参考訳（メタデータ） (2025-07-01T07:08:56Z)
Unwarping Screen Content Images via Structure-texture Enhancement Network and Transformation Self-estimation [2.404130767806698]
画面コンテンツ画像(SCI)に対する変換自己推定を用いた構造テクスチャ拡張ネットワーク(STEN)を提案する。 STENはB-スプラインの暗黙的ニューラル表現モジュールと変換誤差推定と自己補正アルゴリズムを統合している。パブリックなSCIデータセットの実験は、我々のアプローチが最先端の手法を大きく上回っていることを示している。
論文参考訳（メタデータ） (2025-04-21T13:59:44Z)
T-Pixel2Mesh: Combining Global and Local Transformer for 3D Mesh Generation from a Single Image [84.08705684778666]
本稿では,P2Mの粗大なアプローチにインスパイアされたトランスフォーマーブーストアーキテクチャT-Pixel2Meshを提案する。具体的には,大域変換器を用いて局所的な形状を制御し,局所的な幾何学的詳細を洗練させる。 ShapeNetの実験では最先端の性能が実証され,実世界のデータでは一般化能力が示された。
論文参考訳（メタデータ） (2024-03-20T15:14:22Z)
DeblurDiNAT: A Generalizable Transformer for Perceptual Image Deblurring [1.5124439914522694]
DeblurDiNATは汎用的で効率的なエンコーダ・デコーダ変換器であり、地上の真実に近いクリーンな画像を復元する。本稿では,線形フィードフォワードネットワークと非線形デュアルステージ機能融合モジュールを提案する。
論文参考訳（メタデータ） (2024-03-19T21:31:31Z)
Latents2Semantics: Leveraging the Latent Space of Generative Models for Localized Style Manipulation of Face Images [25.82631308991067]
顔画像中の関心領域のスタイル属性の局所的編集を容易にする生成オートエンコーダモデルであるLatents2Semantics Autoencoder (L2SAE)を紹介する。 L2SAEは、符号化された画像の構造とスタイル情報に対する別個の潜在表現を学習し、選択されたROIの構造保存スタイル編集を可能にする。複数のデータセットからサンプリングされたテスト画像を用いて、選択的なスタイル編集やスワップなど、複数のアプリケーションに対して、定性的かつ定量的な結果を提供する。
論文参考訳（メタデータ） (2023-12-22T20:06:53Z)
Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。 DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文参考訳（メタデータ） (2023-10-11T12:46:11Z)
Spectral Normalization and Dual Contrastive Regularization for Image-to-Image Translation [9.029227024451506]
二重コントラスト正規化とスペクトル正規化に基づく新しい未ペアI2I翻訳フレームワークを提案する。 SN-DCRの有効性を評価するための総合的な実験を行い、本手法が複数のタスクにおいてSOTAを実現することを実証した。
論文参考訳（メタデータ） (2023-04-22T05:22:24Z)
Arbitrary Style Transfer with Structure Enhancement by Combining the Global and Local Loss [51.309905690367835]
本稿では,グローバルな損失と局所的な損失を組み合わせ,構造拡張を伴う任意のスタイル転送手法を提案する。実験結果から,視覚効果の優れた高画質画像が生成できることが示唆された。
論文参考訳（メタデータ） (2022-07-23T07:02:57Z)
Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。 OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文参考訳（メタデータ） (2021-06-16T15:56:34Z)
Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文参考訳（メタデータ） (2021-01-04T09:40:54Z)
Informative Dropout for Robust Representation Learning: A Shape-bias Perspective [84.30946377024297]
Informative Dropout (InfoDrop) と呼ばれる軽量モデル非依存の手法を提案し, 解釈性の向上とテクスチャバイアスの低減を図る。具体的には、画像中の局所的な自己情報に基づいて形状からテクスチャを識別し、Dropoutのようなアルゴリズムを用いて局所的なテクスチャからのモデル出力をデコレーションする。
論文参考訳（メタデータ） (2020-08-10T16:52:24Z)
A U-Net Based Discriminator for Generative Adversarial Networks [86.67102929147592]
GAN(Generative Adversarial Network)のための代替U-Netベースの識別器アーキテクチャを提案する。提案アーキテクチャにより,合成画像のグローバルコヒーレンスを維持しつつ,画素単位の詳細なフィードバックを生成元に提供することができる。斬新な判別器は、標準分布と画像品質の指標の観点から、最先端の技術を向上する。
論文参考訳（メタデータ） (2020-02-28T11:16:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。