論文の概要: Effective Data Augmentation With Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.07944v1
- Date: Tue, 7 Feb 2023 20:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 14:24:40.197201
- Title: Effective Data Augmentation With Diffusion Models
- Title(参考訳): 拡散モデルによる効果的なデータ拡張
- Authors: Brandon Trabucco, Kyle Doherty, Max Gurinas, Ruslan Salakhutdinov
- Abstract要約: 現在の拡張ではタスク関連高レベルのセマンティック属性の多様性が得られない。
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
実世界の雑草認識タスクにおいて,画像分類タスクを数ショットで評価し,テスト領域における精度の向上を観察する。
- 参考スコア(独自算出の注目度): 65.09758931804478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is one of the most prevalent tools in deep learning,
underpinning many recent advances, including those from classification,
generative models, and representation learning. The standard approach to data
augmentation combines simple transformations like rotations and flips to
generate new images from existing ones. However, these new images lack
diversity along key semantic axes present in the data. Consider the task of
recognizing different animals. Current augmentations fail to produce diversity
in task-relevant high-level semantic attributes like the species of the animal.
We address the lack of diversity in data augmentation with image-to-image
transformations parameterized by pre-trained text-to-image diffusion models.
Our method edits images to change their semantics using an off-the-shelf
diffusion model, and generalizes to novel visual concepts from a few labelled
examples. We evaluate our approach on image classification tasks in a few-shot
setting, and on a real-world weed recognition task, and observe an improvement
in accuracy in tested domains.
- Abstract(参考訳): データ強化はディープラーニングにおける最も一般的なツールの1つであり、分類、生成モデル、表現学習など、近年の多くの進歩を支えている。
データ拡張に対する標準的なアプローチは、回転やフリップのような単純な変換を組み合わせて、既存の画像から新しい画像を生成する。
しかし、これらの新しい画像は、データに存在するキーセマンティック軸に沿って多様性を欠いている。
異なる動物を認識することを考える。
現在の拡大は、動物の種のようなタスク関連の高い高レベルの意味的属性の多様性を生まない。
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像編集を行い,いくつかのラベル付き例から新たな視覚概念に一般化する。
本手法は,数回の撮影で画像分類を行い,実世界の雑草認識タスクで評価し,テスト領域における精度の向上を観察する。
関連論文リスト
- Learned representation-guided diffusion models for large-image
generation [60.698616089211505]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - GeNIe: Generative Hard Negative Images Through Diffusion [17.829788448502057]
テキストプロンプトに条件付き拡散モデルであるGeNIeを導入し、対照的なデータポイントをマージする。
最近の画像編集法に触発されて、拡散イテレーションの数とノイズの量を制限する。
提案手法の有効性を,数ショット,長テール分布設定で検証し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-12-05T07:34:30Z) - Random Field Augmentations for Self-Supervised Representation Learning [4.3543354293465155]
本稿では,ガウス確率場に基づく局所変換の新たなファミリーを提案し,自己教師付き表現学習のための画像拡張を生成する。
我々は、ImageNet下流分類のベースラインよりも1.7%のTop-1精度向上と、アウト・オブ・ディストリビューションiNaturalist下流分類の3.6%の改善を実現している。
弱い変換は表現を改善するが、強い変換は画像の構造を劣化させることができる。
論文 参考訳(メタデータ) (2023-11-07T00:35:09Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Towards Fine-grained Image Classification with Generative Adversarial
Networks and Facial Landmark Detection [0.0]
GANベースのデータ拡張を使用して、余分なデータセットインスタンスを生成します。
近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。
論文 参考訳(メタデータ) (2021-08-28T06:32:42Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。