論文の概要: Invariant Learning via Diffusion Dreamed Distribution Shifts
- arxiv url: http://arxiv.org/abs/2211.10370v1
- Date: Fri, 18 Nov 2022 17:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 14:26:07.402394
- Title: Invariant Learning via Diffusion Dreamed Distribution Shifts
- Title(参考訳): 拡散ドリーム分布シフトによる不変学習
- Authors: Priyatham Kattakinda, Alexander Levine, Soheil Feizi
- Abstract要約: 拡散ドリーム分布シフト(D3S)と呼ばれるデータセットを提案する。
D3Sは、テキストプロンプトを用いてStableDiffusionを通じて生成された合成画像と、サンプルフォアグラウンドイメージを背景テンプレートイメージにペーストした画像ガイドから構成される。
拡散モデルの驚くべきフォトリアリズムのため、我々の画像は以前の合成データセットよりも自然な画像に近い。
- 参考スコア(独自算出の注目度): 121.71383835729848
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Though the background is an important signal for image classification, over
reliance on it can lead to incorrect predictions when spurious correlations
between foreground and background are broken at test time. Training on a
dataset where these correlations are unbiased would lead to more robust models.
In this paper, we propose such a dataset called Diffusion Dreamed Distribution
Shifts (D3S). D3S consists of synthetic images generated through
StableDiffusion using text prompts and image guides obtained by pasting a
sample foreground image onto a background template image. Using this scalable
approach we generate 120K images of objects from all 1000 ImageNet classes in
10 diverse backgrounds. Due to the incredible photorealism of the diffusion
model, our images are much closer to natural images than previous synthetic
datasets. D3S contains a validation set of more than 17K images whose labels
are human-verified in an MTurk study. Using the validation set, we evaluate
several popular DNN image classifiers and find that the classification
performance of models generally suffers on our background diverse images. Next,
we leverage the foreground & background labels in D3S to learn a foreground
(background) representation that is invariant to changes in background
(foreground) by penalizing the mutual information between the foreground
(background) features and the background (foreground) labels. Linear
classifiers trained on these features to predict foreground (background) from
foreground (background) have high accuracies at 82.9% (93.8%), while
classifiers that predict these labels from background and foreground have a
much lower accuracy of 2.4% and 45.6% respectively. This suggests that our
foreground and background features are well disentangled. We further test the
efficacy of these representations by training classifiers on a task with strong
spurious correlations.
- Abstract(参考訳): 背景は画像分類において重要な信号であるが, 背景と背景の急激な相関がテスト時に破られると, 過度に依存すると誤った予測につながる可能性がある。
これらの相関がバイアスのないデータセットのトレーニングは、より堅牢なモデルにつながる。
本稿では,D3S(Diffusion Dreamed Distribution Shifts)と呼ばれるデータセットを提案する。
d3sは、テキストプロンプトを用いた安定拡散により生成された合成画像と、背景テンプレート画像にサンプル前景画像を貼り付けた画像ガイドとからなる。
このスケーラブルなアプローチを使用して、1000のImageNetクラスのオブジェクトの120Kイメージを10の異なるバックグラウンドで生成します。
拡散モデルの驚くべきフォトリアリズムのため、我々の画像は従来の合成データセットよりもはるかに自然画像に近い。
d3sには、mturk研究でラベルが人間によって検証された17k以上の画像の検証セットが含まれている。
検証セットを用いて、一般的なDNN画像分類器を複数評価し、モデルの分類性能が一般的に背景の多様な画像にかかっていることを確認する。
次に、D3Sにおける前景と背景のラベルを利用して、前景(背景)の特徴と背景(背景)のラベルとの相互情報を解析することにより、背景(背景)の変化に不変な前景(背景)表現を学習する。
前景(バックグラウンド)から前景(バックグラウンド)を予測するために訓練された線形分類器は82.9%(93.8%)の精度が高いが、背景と前景からこれらのラベルを予測する分類器は、それぞれ2.4%と45.6%の精度が低い。
これは、フォアグラウンドとバックグラウンドの機能がうまく絡み合っていることを示唆している。
さらに,強い相関関係を持つタスクにおいて,これらの表現の有効性を,分類器の訓練により検証する。
関連論文リスト
- Semantic-aware Dense Representation Learning for Remote Sensing Image
Change Detection [20.761672725633936]
ディープラーニングに基づく変化検出モデルのトレーニングはラベル付きデータに大きく依存する。
最近のトレンドは、リモートセンシング(RS)データを使用して、教師付きまたは自己教師型学習(SSL)を通じてドメイン内表現を取得することである。
複数のクラスバランス点をサンプリングし,RS画像CDに対する意味認識事前学習を提案する。
論文 参考訳(メタデータ) (2022-05-27T06:08:33Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z) - Correlated Input-Dependent Label Noise in Large-Scale Image
Classification [4.979361059762468]
我々は、データセット内のラベルノイズとしてヘテロセダスティック(herescedastic, label noise)として知られる入力依存のモデリングに対して、原則的な確率論的アプローチをとる。
学習された共分散構造は、意味的に類似したクラスと共起するクラスの間のラベルノイズの既知の情報源をキャプチャする。
We set a new-of-the-art results on WebVision 1.0 with 76.6% top-1 accuracy。
論文 参考訳(メタデータ) (2021-05-19T17:30:59Z) - An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human
Pose Estimation [80.02124918255059]
半教師付き学習は、ラベルなし画像の探索によってモデルの精度を高めることを目的としている。
私たちは相互に教え合うために2つのネットワークを学びます。
各ネットワーク内の容易なイメージに関するより信頼性の高い予測は、他のネットワークに対応するハードイメージについて学ぶように教えるために使用される。
論文 参考訳(メタデータ) (2020-11-25T03:29:52Z) - Background Splitting: Finding Rare Classes in a Sea of Background [55.03789745276442]
我々は,少数の稀なカテゴリの画像分類のための,高精度な深層モデルの訓練という現実的な問題に焦点をあてる。
これらのシナリオでは、ほとんどの画像はデータセットの背景カテゴリに属します(データセットの95%は背景です)。
非バランスなデータセットをトレーニングするための標準的な微調整アプローチと最先端アプローチの両方が、この極端な不均衡の存在下で正確な深層モデルを生成していないことを実証する。
論文 参考訳(メタデータ) (2020-08-28T23:05:15Z) - Noise or Signal: The Role of Image Backgrounds in Object Recognition [93.55720207356603]
我々は、ImageNetイメージ上の前景と背景信号をアンタングリングするためのツールキットを作成する。
a)モデルが背景のみに依存して非自明な精度が得られること、(b)モデルが正しく分類された前景が存在する場合でも、しばしば画像の分類を誤っていること、が分かる。
論文 参考訳(メタデータ) (2020-06-17T16:54:43Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。