Fugu-MT 論文翻訳(概要): Effective Data Augmentation With Diffusion Models

論文の概要: Effective Data Augmentation With Diffusion Models

arxiv url: http://arxiv.org/abs/2302.07944v1
Date: Tue, 7 Feb 2023 20:42:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-19 14:24:40.197201
Title: Effective Data Augmentation With Diffusion Models
Title（参考訳）: 拡散モデルによる効果的なデータ拡張
Authors: Brandon Trabucco, Kyle Doherty, Max Gurinas, Ruslan Salakhutdinov
Abstract要約: 現在の拡張ではタスク関連高レベルのセマンティック属性の多様性が得られない。我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。実世界の雑草認識タスクにおいて,画像分類タスクを数ショットで評価し,テスト領域における精度の向上を観察する。
参考スコア（独自算出の注目度）: 65.09758931804478
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data augmentation is one of the most prevalent tools in deep learning, underpinning many recent advances, including those from classification, generative models, and representation learning. The standard approach to data augmentation combines simple transformations like rotations and flips to generate new images from existing ones. However, these new images lack diversity along key semantic axes present in the data. Consider the task of recognizing different animals. Current augmentations fail to produce diversity in task-relevant high-level semantic attributes like the species of the animal. We address the lack of diversity in data augmentation with image-to-image transformations parameterized by pre-trained text-to-image diffusion models. Our method edits images to change their semantics using an off-the-shelf diffusion model, and generalizes to novel visual concepts from a few labelled examples. We evaluate our approach on image classification tasks in a few-shot setting, and on a real-world weed recognition task, and observe an improvement in accuracy in tested domains.
Abstract（参考訳）: データ強化はディープラーニングにおける最も一般的なツールの1つであり、分類、生成モデル、表現学習など、近年の多くの進歩を支えている。データ拡張に対する標準的なアプローチは、回転やフリップのような単純な変換を組み合わせて、既存の画像から新しい画像を生成する。しかし、これらの新しい画像は、データに存在するキーセマンティック軸に沿って多様性を欠いている。異なる動物を認識することを考える。現在の拡大は、動物の種のようなタスク関連の高い高レベルの意味的属性の多様性を生まない。我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。本手法は,市販の拡散モデルを用いて画像編集を行い,いくつかのラベル付き例から新たな視覚概念に一般化する。本手法は,数回の撮影で画像分類を行い,実世界の雑草認識タスクで評価し,テスト領域における精度の向上を観察する。

関連論文リスト

Dataset Augmentation by Mixing Visual Concepts [3.5420134832331334]
本稿では,事前学習した拡散モデルの微調整によるデータセット拡張手法を提案する。我々は、拡散モデルに実際の画像と新しいテキスト埋め込みを条件付けすることで適応する。提案手法は,ベンチマーク分類タスクにおける最先端の強化手法より優れている。
論文参考訳（メタデータ） (2024-12-19T19:42:22Z)
Erase, then Redraw: A Novel Data Augmentation Approach for Free Space Detection Using Diffusion Model [5.57325257338134]
従来のデータ拡張方法は、ハイレベルなセマンティック属性を変更することはできない。画像から画像への変換をパラメータ化するためのテキスト間拡散モデルを提案する。我々は、元のデータセットから実際のオブジェクトのインスタンスを消去し、削除されたリージョンで同様の意味を持つ新しいインスタンスを生成することで、この目標を達成する。
論文参考訳（メタデータ） (2024-09-30T10:21:54Z)
DiffuseMix: Label-Preserving Data Augmentation with Diffusion Models [18.44432223381586]
近年、ディープニューラルネットワークの一般化を改善するために、画像混合に基づく拡張技術が数多く導入されている。これらの手法では、2つ以上のランダムに選択された自然画像が混合され、拡張画像を生成する。 DiffuseMixを提案する。DiffuseMixは、拡散モデルを利用してトレーニング画像を再構成する新しいデータ拡張手法である。
論文参考訳（メタデータ） (2024-04-05T05:31:02Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文参考訳（メタデータ） (2024-03-25T10:30:22Z)
Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文参考訳（メタデータ） (2023-12-12T14:45:45Z)
Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文参考訳（メタデータ） (2022-12-11T04:37:43Z)
Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。 VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文参考訳（メタデータ） (2022-10-21T09:35:47Z)
Towards Fine-grained Image Classification with Generative Adversarial Networks and Facial Landmark Detection [0.0]
GANベースのデータ拡張を使用して、余分なデータセットインスタンスを生成します。近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。
論文参考訳（メタデータ） (2021-08-28T06:32:42Z)
Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文参考訳（メタデータ） (2020-09-18T17:52:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。