論文の概要: Not Just Pretty Pictures: Toward Interventional Data Augmentation Using
Text-to-Image Generators
- arxiv url: http://arxiv.org/abs/2212.11237v3
- Date: Fri, 20 Oct 2023 14:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 13:58:20.696102
- Title: Not Just Pretty Pictures: Toward Interventional Data Augmentation Using
Text-to-Image Generators
- Title(参考訳): 美しい写真ばかりでなく:テキストから画像へのジェネレータによる介入的データ拡張に向けて
- Authors: Jianhao Yuan, Francesco Pinto, Adam Davies, Philip Torr
- Abstract要約: 我々は,テキスト・トゥ・イメージ(T2I)ジェネレータと関連する画像編集技術が,IDAの問題をいかに解決できるかを考察する。
我々は、T2I生成の重要な次元にまたがって、ドメインの一般化における様々なベンチマークの集合を実験する。
本稿では、画像編集と合成にT2Iを用いることの利点について論じるとともに、単純な検索ベースラインが驚くほど効果的な代替手段であることを示す。
- 参考スコア(独自算出の注目度): 13.167173258708436
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural image classifiers are known to undergo severe performance degradation
when exposed to inputs that exhibit covariate shifts with respect to the
training distribution. A general interventional data augmentation
(IDA)mechanism that simulates arbitrary interventions over spurious variables
has often been conjectured as a theoretical solution to this problem and
approximated to varying degrees of success. In this work, we study how well
modern Text-to-Image (T2I) generators and associated image editing techniques
can solve the problem of IDA. We experiment across a diverse collection of
benchmarks in domain generalization, ablating across key dimensions of T2I
generation, including interventional prompts, conditioning mechanisms, and
post-hoc filtering, showing that it substantially outperforms previously
state-of-the-art image augmentation techniques independently of how each
dimension is configured. We discuss the comparative advantages of using T2I for
image editing versus synthesis, also finding that a simple retrieval baseline
presents a surprisingly effective alternative, which raises interesting
questions about how generative models should be evaluated in the context of
domain generalization.
- Abstract(参考訳): ニューラルイメージ分類器は、トレーニング分布に関する共変量シフトを示す入力に曝露した場合、厳しい性能劣化を経験することが知られている。
突発変数に対する任意の介入をシミュレートする一般介入データ拡張(IDA)機構は、この問題の理論的解決としてしばしば予想され、様々な成功度に近似された。
本研究では,最新のテキスト・トゥ・イメージ(T2I)ジェネレータと関連する画像編集技術が,IDAの問題をいかに解決できるかを考察する。
介入的プロンプト,コンディショニング機構,ポストホックフィルタリングなど,t2i生成のキーディメンションにまたがるさまざまなベンチマーク群で実験を行い,各ディメンションの構成方法とは無関係に,それまでの最先端画像拡張技術を大きく上回ることを示した。
画像編集と合成にt2iを用いた場合の利点について考察し、また、単純な検索ベースラインが驚くほど効果的な代替案を示し、ドメイン一般化の文脈でどのように生成モデルを評価するべきかという興味深い疑問を提起する。
関連論文リスト
- OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Semi-Truths: A Large-Scale Dataset of AI-Augmented Images for Evaluating Robustness of AI-Generated Image detectors [62.63467652611788]
実画像27,600枚、223,400枚、AI拡張画像1,472,700枚を含むSEMI-TRUTHSを紹介する。
それぞれの画像には、検出器のロバスト性の標準化と目標評価のためのメタデータが添付されている。
以上の結果から,現状の検出器は摂動の種類や程度,データ分布,拡張方法に様々な感度を示すことが示唆された。
論文 参考訳(メタデータ) (2024-11-12T01:17:27Z) - Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。
所望のプロパティの出現を促進するオンラインプロンプト最適化フレームワークを開発した。
次に、このジェネリックプロンプトを、マイノリティーな特徴の生成を促進する特殊な解決器に仕立てる。
論文 参考訳(メタデータ) (2024-10-10T11:56:09Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - GeNIe: Generative Hard Negative Images Through Diffusion [16.619150568764262]
生成AIの最近の進歩により、自然画像に似たデータを生成する、より洗練された拡張技術が実現された。
本稿では,テキストプロンプトに条件付き潜伏拡散モデルを利用した新しい拡張手法であるGeNIeを紹介する。
本実験は,本手法の有効性と先行技術よりも優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-12-05T07:34:30Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z) - TTIDA: Controllable Generative Data Augmentation via Text-to-Text and
Text-to-Image Models [37.2392848181456]
本稿では,テキスト・トゥ・テクスト・トゥ・イメージ・データ拡張のための大規模事前学習テキスト・ツー・テクスト・トゥ・イメージ・ジェネレーティブ・モデルの有用性を活用するため,TIDA(Text-to-Text-to-Image Data Augmentation)を提案する。
T2Tモデルによる詳細な記述にT2Iモデルを適用することにより、フレキシブルかつ制御可能な方法で写真リアルなラベル付き画像を生成することができる。
論文 参考訳(メタデータ) (2023-04-18T08:40:30Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。