論文の概要: Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation
- arxiv url: http://arxiv.org/abs/2305.16289v1
- Date: Thu, 25 May 2023 17:43:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:22:11.790444
- Title: Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation
- Title(参考訳): 自動拡散に基づく拡張によるビジョンデータセットの多様化
- Authors: Lisa Dunlap, Alyssa Umino, Han Zhang, Jiezhi Yang, Joseph E. Gonzalez,
Trevor Darrell
- Abstract要約: ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
分類と検出のためのきめ細かい散在したデータセットでは、ALIAは従来のデータ拡張とテキストから画像への生成データを最大15%超える。
- 参考スコア(独自算出の注目度): 78.77214367604394
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many fine-grained classification tasks, like rare animal identification, have
limited training data and consequently classifiers trained on these datasets
often fail to generalize to variations in the domain like changes in weather or
location. As such, we explore how natural language descriptions of the domains
seen in training data can be used with large vision models trained on diverse
pretraining datasets to generate useful variations of the training data. We
introduce ALIA (Automated Language-guided Image Augmentation), a method which
utilizes large vision and language models to automatically generate natural
language descriptions of a dataset's domains and augment the training data via
language-guided image editing. To maintain data integrity, a model trained on
the original dataset filters out minimal image edits and those which corrupt
class-relevant information. The resulting dataset is visually consistent with
the original training data and offers significantly enhanced diversity. On
fine-grained and cluttered datasets for classification and detection, ALIA
surpasses traditional data augmentation and text-to-image generated data by up
to 15\%, often even outperforming equivalent additions of real data. Code is
avilable at https://github.com/lisadunlap/ALIA.
- Abstract(参考訳): 希少な動物識別のような粒度の細かい分類タスクは訓練データに制限があるため、これらのデータセットで訓練された分類器は、天候や位置の変化のような領域のバリエーションに一般化できないことが多い。
そこで本研究では,トレーニングデータに現れるドメインの自然言語記述を,さまざまな事前学習データセットに基づいてトレーニングされた大規模ビジョンモデルを用いて,トレーニングデータの有用なバリエーションを生成する方法について検討する。
ALIA(Automated Language-Guided Image Augmentation)は,大規模ビジョンと言語モデルを用いて,データセットのドメインの自然言語記述を自動的に生成し,言語誘導画像編集によるトレーニングデータの拡張を行う手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
その結果得られたデータセットは、元のトレーニングデータと視覚的に一致し、ダイバーシティが大幅に向上します。
分類と検出のための細粒度で散らばったデータセットでは、ALIAは従来のデータ拡張とテキストから画像までの生成データを最大15倍に超え、多くの場合、実際のデータの同等な付加よりも優れています。
コードはhttps://github.com/lisadunlap/alia。
関連論文リスト
- Effective Data Augmentation With Diffusion Models [65.09758931804478]
現在の拡張ではタスク関連高レベルのセマンティック属性の多様性が得られない。
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
実世界の雑草認識タスクにおいて,画像分類タスクを数ショットで評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Leaving Reality to Imagination: Robust Classification via Generated
Datasets [24.411444438920988]
近年のロバスト性に関する研究では、テストセットと同様のデータセットでトレーニングされたニューラルイメージ分類器間での顕著なパフォーマンスギャップが明らかになった。
生成したデータセットは、画像分類器の自然な堅牢性にどのように影響するのか?
生成したデータで強化された実データに基づいて訓練された画像ネット分類器は、標準トレーニングよりも精度が高く、効果的に頑健であることがわかった。
論文 参考訳(メタデータ) (2023-02-05T22:49:33Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - Unsupervised Domain Adaptation with Histogram-gated Image Translation
for Delayered IC Image Analysis [2.720699926154399]
Histogram-gated Image Translation (HGIT)は、特定のソースデータセットからターゲットデータセットのドメインに変換する、教師なしのドメイン適応フレームワークである。
提案手法は,報告したドメイン適応手法と比較して最高の性能を達成し,完全教師付きベンチマークに適当に近い。
論文 参考訳(メタデータ) (2022-09-27T15:53:22Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Classifying Textual Data with Pre-trained Vision Models through Transfer
Learning and Data Transformations [0.0]
我々は、ImageNetで訓練されたベンチマークビジョンモデルによって得られた知識を用いて、より小さなアーキテクチャがテキストの分類を学ぶのを助けることを提案する。
異なるドメインの分析と転送学習を行う。
この研究の主な貢献は、言語とビジョンの両方で事前訓練された大きなモデルを結びつけて、最先端の結果を得るという、新しいアプローチである。
論文 参考訳(メタデータ) (2021-06-23T15:53:38Z) - i-Mix: A Domain-Agnostic Strategy for Contrastive Representation
Learning [117.63815437385321]
対照的な表現学習を改善するために, 単純で効果的なドメインに依存しない正規化戦略i-Mixを提案する。
実験では、i-Mixはドメイン間の学習表現の質を一貫して改善することを示した。
論文 参考訳(メタデータ) (2020-10-17T23:32:26Z) - Domain Adaptation with Morphologic Segmentation [8.0698976170854]
本稿では,任意の入力領域(実領域と合成領域)の画像を一様出力領域に変換するために,形態的セグメンテーションを用いた新しいドメイン適応フレームワークを提案する。
私たちのゴールは、複数のソースからのデータを共通の表現に統一する前処理のステップを確立することです。
都市景観のシミュレートと実データの4つのデータ集合上で, 定性的に定量的に評価し, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-06-16T17:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。