論文の概要: Effective Data Augmentation With Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.07944v1
- Date: Tue, 7 Feb 2023 20:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 14:24:40.197201
- Title: Effective Data Augmentation With Diffusion Models
- Title(参考訳): 拡散モデルによる効果的なデータ拡張
- Authors: Brandon Trabucco, Kyle Doherty, Max Gurinas, Ruslan Salakhutdinov
- Abstract要約: 現在の拡張ではタスク関連高レベルのセマンティック属性の多様性が得られない。
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
実世界の雑草認識タスクにおいて,画像分類タスクを数ショットで評価し,テスト領域における精度の向上を観察する。
- 参考スコア(独自算出の注目度): 65.09758931804478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is one of the most prevalent tools in deep learning,
underpinning many recent advances, including those from classification,
generative models, and representation learning. The standard approach to data
augmentation combines simple transformations like rotations and flips to
generate new images from existing ones. However, these new images lack
diversity along key semantic axes present in the data. Consider the task of
recognizing different animals. Current augmentations fail to produce diversity
in task-relevant high-level semantic attributes like the species of the animal.
We address the lack of diversity in data augmentation with image-to-image
transformations parameterized by pre-trained text-to-image diffusion models.
Our method edits images to change their semantics using an off-the-shelf
diffusion model, and generalizes to novel visual concepts from a few labelled
examples. We evaluate our approach on image classification tasks in a few-shot
setting, and on a real-world weed recognition task, and observe an improvement
in accuracy in tested domains.
- Abstract(参考訳): データ強化はディープラーニングにおける最も一般的なツールの1つであり、分類、生成モデル、表現学習など、近年の多くの進歩を支えている。
データ拡張に対する標準的なアプローチは、回転やフリップのような単純な変換を組み合わせて、既存の画像から新しい画像を生成する。
しかし、これらの新しい画像は、データに存在するキーセマンティック軸に沿って多様性を欠いている。
異なる動物を認識することを考える。
現在の拡大は、動物の種のようなタスク関連の高い高レベルの意味的属性の多様性を生まない。
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像編集を行い,いくつかのラベル付き例から新たな視覚概念に一般化する。
本手法は,数回の撮影で画像分類を行い,実世界の雑草認識タスクで評価し,テスト領域における精度の向上を観察する。
関連論文リスト
- Erase, then Redraw: A Novel Data Augmentation Approach for Free Space Detection Using Diffusion Model [5.57325257338134]
従来のデータ拡張方法は、ハイレベルなセマンティック属性を変更することはできない。
画像から画像への変換をパラメータ化するためのテキスト間拡散モデルを提案する。
我々は、元のデータセットから実際のオブジェクトのインスタンスを消去し、削除されたリージョンで同様の意味を持つ新しいインスタンスを生成することで、この目標を達成する。
論文 参考訳(メタデータ) (2024-09-30T10:21:54Z) - DiffuseMix: Label-Preserving Data Augmentation with Diffusion Models [18.44432223381586]
近年、ディープニューラルネットワークの一般化を改善するために、画像混合に基づく拡張技術が数多く導入されている。
これらの手法では、2つ以上のランダムに選択された自然画像が混合され、拡張画像を生成する。
DiffuseMixを提案する。DiffuseMixは、拡散モデルを利用してトレーニング画像を再構成する新しいデータ拡張手法である。
論文 参考訳(メタデータ) (2024-04-05T05:31:02Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Towards Fine-grained Image Classification with Generative Adversarial
Networks and Facial Landmark Detection [0.0]
GANベースのデータ拡張を使用して、余分なデータセットインスタンスを生成します。
近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。
論文 参考訳(メタデータ) (2021-08-28T06:32:42Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。