論文の概要: Not Just Pretty Pictures: Toward Interventional Data Augmentation Using Text-to-Image Generators
- arxiv url: http://arxiv.org/abs/2212.11237v4
- Date: Mon, 3 Jun 2024 20:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 14:46:08.050831
- Title: Not Just Pretty Pictures: Toward Interventional Data Augmentation Using Text-to-Image Generators
- Title(参考訳): テキスト・ツー・イメージ・ジェネレータを用いたインターベンショナルデータ拡張に向けて
- Authors: Jianhao Yuan, Francesco Pinto, Adam Davies, Philip Torr,
- Abstract要約: このような環境要因に対する任意の介入をシミュレートするために、現代のT2Iジェネレータがどのように使用できるかを示す。
我々の経験的発見は、安定拡散のような現代のT2Iジェネレータが、強力な介入データ拡張メカニズムとして実際に使用できることを示している。
- 参考スコア(独自算出の注目度): 12.053125079460234
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural image classifiers are known to undergo severe performance degradation when exposed to inputs that are sampled from environmental conditions that differ from their training data. Given the recent progress in Text-to-Image (T2I) generation, a natural question is how modern T2I generators can be used to simulate arbitrary interventions over such environmental factors in order to augment training data and improve the robustness of downstream classifiers. We experiment across a diverse collection of benchmarks in single domain generalization (SDG) and reducing reliance on spurious features (RRSF), ablating across key dimensions of T2I generation, including interventional prompting strategies, conditioning mechanisms, and post-hoc filtering. Our extensive empirical findings demonstrate that modern T2I generators like Stable Diffusion can indeed be used as a powerful interventional data augmentation mechanism, outperforming previously state-of-the-art data augmentation techniques regardless of how each dimension is configured.
- Abstract(参考訳): ニューラルイメージ分類器は、トレーニングデータと異なる環境条件からサンプリングされた入力に曝されると、深刻な性能劣化が起こることが知られている。
近年のテキスト・トゥ・イメージ・ジェネレーション(T2I)の進展を考えると、近年のT2Iジェネレータは、トレーニングデータを強化し、下流分類器の堅牢性を向上させるために、こうした環境要因に対する任意の介入をシミュレートするためにどのように使用できるのかという疑問がある。
我々は、単一ドメイン一般化(SDG)におけるベンチマークの多種多様なコレクションを実験し、介入プロンプト戦略、条件付け機構、ポストホックフィルタリングを含む、T2I生成の重要な次元にまたがるスプリアス特徴(RRSF)への依存を減らした。
我々の広範な実証実験により、Stable Diffusionのような現代のT2Iジェネレータは、それぞれの寸法がどう構成されているかに関わらず、従来の最先端のデータ拡張技術よりも優れた、強力な介入データ拡張メカニズムとして実際に使用できることが示された。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Generative adversarial networks for data-scarce spectral applications [0.0]
合成スペクトルデータ生成分野におけるGANの応用について報告する。
CWGANは,低データ方式の性能向上を図り,サロゲートモデルとして機能することを示す。
論文 参考訳(メタデータ) (2023-07-14T16:27:24Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z) - TTIDA: Controllable Generative Data Augmentation via Text-to-Text and
Text-to-Image Models [37.2392848181456]
本稿では,テキスト・トゥ・テクスト・トゥ・イメージ・データ拡張のための大規模事前学習テキスト・ツー・テクスト・トゥ・イメージ・ジェネレーティブ・モデルの有用性を活用するため,TIDA(Text-to-Text-to-Image Data Augmentation)を提案する。
T2Tモデルによる詳細な記述にT2Iモデルを適用することにより、フレキシブルかつ制御可能な方法で写真リアルなラベル付き画像を生成することができる。
論文 参考訳(メタデータ) (2023-04-18T08:40:30Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Controlled and Conditional Text to Image Generation with Diffusion Prior [1.8690858882873838]
DALLE-2の2ステッププロセスは、テキストからCLIPイメージの埋め込みを生成するDiffusion Priorと、CLIPイメージの埋め込みから画像を生成するDiffusion Decoderで構成される。
提案手法は,カラー条件付き生成のための領域固有生成と既存のベースラインの迅速なエンジニアリングよりも,定量的かつ質的に優れていることを示す。
論文 参考訳(メタデータ) (2023-02-23T00:10:40Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness
of Multi-Stream End-to-End ASR [35.7018440502825]
マルチストリームパラダイムでは、さまざまな未知の単一ストリーム条件やストリーム間ダイナミクスを扱うことにより、ロバスト性を改善する。
ミスマッチシナリオに着目した2段階拡張方式を提案する。
従来の訓練戦略と比較して、単語誤り率を29.7~59.3%削減するなど、大幅な改善が報告されている。
論文 参考訳(メタデータ) (2021-02-05T08:36:58Z) - Unlimited Resolution Image Generation with R2D2-GANs [69.90258455164513]
本稿では,任意の解像度の高品質な画像を生成するための新しいシミュレーション手法を提案する。
この方法では、フル長のミッション中に収集したソナースキャンと同等の大きさのソナースキャンを合成することができる。
生成されたデータは、連続的で、現実的に見え、また、取得の実際の速度の少なくとも2倍の速さで生成される。
論文 参考訳(メタデータ) (2020-03-02T17:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。