論文の概要: Lost in Translation: Modern Neural Networks Still Struggle With Small Realistic Image Transformations
- arxiv url: http://arxiv.org/abs/2404.07153v1
- Date: Wed, 10 Apr 2024 16:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 13:42:08.057919
- Title: Lost in Translation: Modern Neural Networks Still Struggle With Small Realistic Image Transformations
- Title(参考訳): 翻訳の損失:現代のニューラルネットワークはいまだに小さなリアルなイメージ変換に悩まされている
- Authors: Ofir Shifman, Yair Weiss,
- Abstract要約: 画像分類における顕著な性能を達成するディープニューラルネットワークは、小さな変換によって容易に騙される。
これらのアプローチは、カメラオリエンテーションの微妙な変化をシミュレートする「自然な」画像翻訳を頑健に扱う上で、依然として不十分であることを示す。
我々は、クロップ選択によるロバスト推論(Robust Inference)を、任意の所望の一貫性のレベルを達成することが証明できる単純な方法として提示する。
- 参考スコア(独自算出の注目度): 8.248839892711478
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep neural networks that achieve remarkable performance in image classification have previously been shown to be easily fooled by tiny transformations such as a one pixel translation of the input image. In order to address this problem, two approaches have been proposed in recent years. The first approach suggests using huge datasets together with data augmentation in the hope that a highly varied training set will teach the network to learn to be invariant. The second approach suggests using architectural modifications based on sampling theory to deal explicitly with image translations. In this paper, we show that these approaches still fall short in robustly handling 'natural' image translations that simulate a subtle change in camera orientation. Our findings reveal that a mere one-pixel translation can result in a significant change in the predicted image representation for approximately 40% of the test images in state-of-the-art models (e.g. open-CLIP trained on LAION-2B or DINO-v2) , while models that are explicitly constructed to be robust to cyclic translations can still be fooled with 1 pixel realistic (non-cyclic) translations 11% of the time. We present Robust Inference by Crop Selection: a simple method that can be proven to achieve any desired level of consistency, although with a modest tradeoff with the model's accuracy. Importantly, we demonstrate how employing this method reduces the ability to fool state-of-the-art models with a 1 pixel translation to less than 5% while suffering from only a 1% drop in classification accuracy. Additionally, we show that our method can be easy adjusted to deal with circular shifts as well. In such case we achieve 100% robustness to integer shifts with state-of-the-art accuracy, and with no need for any further training.
- Abstract(参考訳): 画像分類において顕著な性能を発揮するディープニューラルネットワークは、これまで入力画像の1ピクセルの変換のような小さな変換によって容易に騙されることが示されてきた。
この問題に対処するため,近年2つのアプローチが提案されている。
最初のアプローチでは、非常に多様なトレーニングセットが、不変であることを学ぶために、巨大なデータセットとデータ拡張を使用することを提案する。
第二のアプローチは、画像翻訳を明示的に扱うためにサンプリング理論に基づくアーキテクチャ修正を使うことを提案する。
本稿では,カメラの向きの微妙な変化をシミュレートする「自然な」画像翻訳を頑健に扱う上で,これらのアプローチは依然として不十分であることを示す。
以上の結果から, LAION-2B や DINO-v2 で訓練されたオープンCLIP など, テスト画像の約40%は, たった1ピクセルの翻訳で予測された画像表現に顕著な変化が生じることが明らかとなった。
我々は,モデルの精度と多少のトレードオフはあるものの,任意の所望の一貫性を達成できることを証明できるシンプルな手法である,Crop Selectionによるロバスト推論を提案する。
重要なことは,この手法を用いることで,1ピクセルの翻訳で最先端のモデルを騙す能力が,1%の精度の低下に悩まされながら5%未満に低下することを示すことである。
さらに,本手法は円周シフトにも容易に対応できることを示す。
そのような場合、最先端の精度で整数シフトに対して100%堅牢性を達成することができ、それ以上の訓練は不要である。
関連論文リスト
- CycleNet: Rethinking Cycle Consistency in Text-Guided Diffusion for
Image Manipulation [57.836686457542385]
拡散モデル(DM)は画像合成タスクのブレークスルーを実現するが、一貫したイメージ・ツー・イメージ(I2I)翻訳のための直感的なインタフェースは欠如している。
本稿では,画像操作を正規化するためのDMにサイクル一貫性を組み込んだ,新しくてシンプルな手法であるCyclenetを紹介する。
論文 参考訳(メタデータ) (2023-10-19T21:32:21Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - Neural Style Transfer and Unpaired Image-to-Image Translation to deal
with the Domain Shift Problem on Spheroid Segmentation [0.0]
ドメインシフト(Domain shift)は、機械学習モデルの一般化問題であり、トレーニングセットのデータ分散が、デプロイ時にモデルが直面するデータ分散とは異なるときに発生する。
これは、実験条件、機器、撮影設定のばらつきによる生体画像のセグメンテーションの文脈で一般的である。
IoUを97%以上達成した4つのディープラーニングセグメンテーションモデルによる球面分割の文脈における領域シフト問題について,トレーニング分布に追従した画像を用いて検証した結果,異なる条件下で撮影された画像に適用した場合,84%まで性能が低下した。
論文 参考訳(メタデータ) (2021-12-16T17:34:45Z) - With a Little Help from My Friends: Nearest-Neighbor Contrastive
Learning of Visual Representations [87.72779294717267]
対比損失で最も近い隣り合わせを正として使用すると、ImageNet分類でパフォーマンスが大幅に向上します。
提案手法が複雑なデータ拡張に依存しないことを実証的に証明する。
論文 参考訳(メタデータ) (2021-04-29T17:56:08Z) - An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human
Pose Estimation [80.02124918255059]
半教師付き学習は、ラベルなし画像の探索によってモデルの精度を高めることを目的としている。
私たちは相互に教え合うために2つのネットワークを学びます。
各ネットワーク内の容易なイメージに関するより信頼性の高い予測は、他のネットワークに対応するハードイメージについて学ぶように教えるために使用される。
論文 参考訳(メタデータ) (2020-11-25T03:29:52Z) - DeepI2I: Enabling Deep Hierarchical Image-to-Image Translation by
Transferring from GANs [43.33066765114446]
画像から画像への変換は、クラス間の変換が大きな形状変化を必要とする場合、性能が劣る。
本稿では,DeepI2Iと呼ばれる新しい階層型画像から画像への変換手法を提案する。
転送学習はI2Iシステム、特に小さなデータセットの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2020-11-11T16:03:03Z) - PREGAN: Pose Randomization and Estimation for Weakly Paired Image Style
Translation [11.623477199795037]
本稿では2つの画像のコンテンツがポーズの誤りと一致しているスタイル翻訳のための弱いペアリング設定を提案する。
PreGANは、シミュレーションデータと実世界の収集データの両方で検証され、有効性を示す。
論文 参考訳(メタデータ) (2020-10-31T16:11:11Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - Radon cumulative distribution transform subspace modeling for image
classification [18.709734704950804]
画像変形モデルの幅広いクラスに適用可能な新しい教師付き画像分類法を提案する。
この方法は、画像データに先述のRandon Cumulative Distribution Transform(R-CDT)を用いる。
テスト精度の向上に加えて,計算効率の向上も示す。
論文 参考訳(メタデータ) (2020-04-07T19:47:26Z) - Semi-supervised Learning for Few-shot Image-to-Image Translation [89.48165936436183]
本稿では,SEMITと呼ばれる画像翻訳のための半教師付き手法を提案する。
提案手法は,ソースラベルの10%以下を用いて,4つの異なるデータセットに対して優れた結果を得る。
論文 参考訳(メタデータ) (2020-03-30T22:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。