論文の概要: Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable
Interventions for Robust Representations
- arxiv url: http://arxiv.org/abs/2212.11237v2
- Date: Thu, 6 Apr 2023 14:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 17:24:03.235207
- Title: Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable
Interventions for Robust Representations
- Title(参考訳): テキストから画像へ:ロバスト表現のための解釈可能なインターベンションを可能にする
- Authors: Jianhao Yuan, Francesco Pinto, Adam Davies, Aarushi Gupta, Philip Torr
- Abstract要約: テキスト・トゥ・イメージ・ジェネレータは、自然言語のプロンプトによる介入を近似するために画像を編集する能力は、より堅牢な分類器を訓練するための有望な技術であることを示す。
様々なプロンプト戦略が、最先端のパフォーマンスを達成するのに十分な拡張トレーニングデータセットを作成するのに有効であることがわかった。
- 参考スコア(独自算出の注目度): 4.499833362998487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural image classifiers are known to undergo severe performance degradation
when exposed to input that exhibits covariate shift with respect to the
training distribution. In this paper, we show that recent Text-to-Image (T2I)
generators' ability to edit images to approximate interventions via
natural-language prompts is a promising technology to train more robust
classifiers. Using current open-source models, we find that a variety of
prompting strategies are effective for producing augmented training datasets
sufficient to achieve state-of-the-art performance (1) in widely adopted
Single-Domain Generalization benchmarks, (2) in reducing classifiers'
dependency on spurious features and (3) facilitating the application of
Multi-Domain Generalization techniques when fewer training domains are
available.
- Abstract(参考訳): ニューラルイメージ分類器は、トレーニング分布に対する共変量シフトを示す入力に曝露した場合、厳しい性能劣化を経ることが知られている。
本稿では,最近のt2i(text-to-image)ジェネレータによる自然言語プロンプトによる画像編集能力が,より堅牢な分類器を訓練するための有望な技術であることを示す。
現在のオープンソースモデルを用いて,(1)広く採用されている単一ドメイン一般化ベンチマーク,(2)素早い特徴に対する分類器の依存性の低減,(3)少ないトレーニング領域が利用できる場合のマルチドメイン一般化手法の適用の促進などにおいて,高度なトレーニングデータセットを生成する上で,さまざまなプロンプト戦略が有効であることが判明した。
関連論文リスト
- OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Semi-Truths: A Large-Scale Dataset of AI-Augmented Images for Evaluating Robustness of AI-Generated Image detectors [62.63467652611788]
実画像27,600枚、223,400枚、AI拡張画像1,472,700枚を含むSEMI-TRUTHSを紹介する。
それぞれの画像には、検出器のロバスト性の標準化と目標評価のためのメタデータが添付されている。
以上の結果から,現状の検出器は摂動の種類や程度,データ分布,拡張方法に様々な感度を示すことが示唆された。
論文 参考訳(メタデータ) (2024-11-12T01:17:27Z) - Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。
所望のプロパティの出現を促進するオンラインプロンプト最適化フレームワークを開発した。
次に、このジェネリックプロンプトを、マイノリティーな特徴の生成を促進する特殊な解決器に仕立てる。
論文 参考訳(メタデータ) (2024-10-10T11:56:09Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - GeNIe: Generative Hard Negative Images Through Diffusion [16.619150568764262]
生成AIの最近の進歩により、自然画像に似たデータを生成する、より洗練された拡張技術が実現された。
本稿では,テキストプロンプトに条件付き潜伏拡散モデルを利用した新しい拡張手法であるGeNIeを紹介する。
本実験は,本手法の有効性と先行技術よりも優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-12-05T07:34:30Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z) - TTIDA: Controllable Generative Data Augmentation via Text-to-Text and
Text-to-Image Models [37.2392848181456]
本稿では,テキスト・トゥ・テクスト・トゥ・イメージ・データ拡張のための大規模事前学習テキスト・ツー・テクスト・トゥ・イメージ・ジェネレーティブ・モデルの有用性を活用するため,TIDA(Text-to-Text-to-Image Data Augmentation)を提案する。
T2Tモデルによる詳細な記述にT2Iモデルを適用することにより、フレキシブルかつ制御可能な方法で写真リアルなラベル付き画像を生成することができる。
論文 参考訳(メタデータ) (2023-04-18T08:40:30Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。