論文の概要: Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable
Interventions for Robust Representations
- arxiv url: http://arxiv.org/abs/2212.11237v1
- Date: Wed, 21 Dec 2022 18:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:24:03.770042
- Title: Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable
Interventions for Robust Representations
- Title(参考訳): テキストから画像へ:ロバスト表現のための解釈可能なインターベンションを可能にする
- Authors: Jianhao Yuan, Francesco Pinto, Adam Davies, Aarushi Gupta, Philip Torr
- Abstract要約: テキスト・ツー・イメージ・ジェネレータは、自然言語のプロンプトを通じて画像介入をシミュレートする能力を利用して、より堅牢なモデルを訓練できることを示す。
種々のプロンプト機構は,最先端の性能を達成するのに十分な合成訓練データを生成するのに有効であることがわかった。
- 参考スコア(独自算出の注目度): 4.499833362998487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural image classifiers are known to undergo severe performance degradation
when exposed to input that exhibits covariate-shift with respect to the
training distribution. Successful hand-crafted augmentation pipelines aim at
either approximating the expected test domain conditions or to perturb the
features that are specific to the training environment. The development of
effective pipelines is typically cumbersome, and produce transformations whose
impact on the classifier performance are hard to understand and control. In
this paper, we show that recent Text-to-Image (T2I) generators' ability to
simulate image interventions via natural-language prompts can be leveraged to
train more robust models, offering a more interpretable and controllable
alternative to traditional augmentation methods. We find that a variety of
prompting mechanisms are effective for producing synthetic training data
sufficient to achieve state-of-the-art performance in widely-adopted
domain-generalization benchmarks and reduce classifiers' dependency on spurious
features. Our work suggests that further progress in T2I generation and a
tighter integration with other research fields may represent a significant step
towards the development of more robust machine learning systems.
- Abstract(参考訳): ニューラルイメージ分類器は、トレーニング分布に関して共変量シフトを示す入力に曝されると、厳しい性能劣化を経験することが知られている。
手作りの強化パイプラインの成功は、期待されるテストドメイン条件を近似するか、トレーニング環境特有の特徴を摂動させることを目標としている。
効果的なパイプラインの開発は一般的に面倒で、分類器のパフォーマンスに影響を及ぼす変換は理解や制御が難しい。
本稿では,近年のテキスト・トゥ・イメージ(T2I)ジェネレータによる自然言語プロンプトによる画像介入をシミュレートする能力を利用して,より堅牢なモデルをトレーニングし,従来の拡張手法よりも解釈可能で制御可能な代替手段を提供することを示す。
様々なプロンプト機構は、広く評価された領域一般化ベンチマークにおいて、最先端の性能を達成するのに十分な合成トレーニングデータを生成するのに有効であり、スプリアス機能に対する分類器の依存性を低減するのに有効である。
我々の研究は、T2I生成のさらなる進歩と、他の研究分野との緊密な統合が、より堅牢な機械学習システムの開発への大きな一歩であることを示唆している。
関連論文リスト
- OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Semi-Truths: A Large-Scale Dataset of AI-Augmented Images for Evaluating Robustness of AI-Generated Image detectors [62.63467652611788]
実画像27,600枚、223,400枚、AI拡張画像1,472,700枚を含むSEMI-TRUTHSを紹介する。
それぞれの画像には、検出器のロバスト性の標準化と目標評価のためのメタデータが添付されている。
以上の結果から,現状の検出器は摂動の種類や程度,データ分布,拡張方法に様々な感度を示すことが示唆された。
論文 参考訳(メタデータ) (2024-11-12T01:17:27Z) - Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。
所望のプロパティの出現を促進するオンラインプロンプト最適化フレームワークを開発した。
次に、このジェネリックプロンプトを、マイノリティーな特徴の生成を促進する特殊な解決器に仕立てる。
論文 参考訳(メタデータ) (2024-10-10T11:56:09Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - GeNIe: Generative Hard Negative Images Through Diffusion [16.619150568764262]
生成AIの最近の進歩により、自然画像に似たデータを生成する、より洗練された拡張技術が実現された。
本稿では,テキストプロンプトに条件付き潜伏拡散モデルを利用した新しい拡張手法であるGeNIeを紹介する。
本実験は,本手法の有効性と先行技術よりも優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-12-05T07:34:30Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z) - TTIDA: Controllable Generative Data Augmentation via Text-to-Text and
Text-to-Image Models [37.2392848181456]
本稿では,テキスト・トゥ・テクスト・トゥ・イメージ・データ拡張のための大規模事前学習テキスト・ツー・テクスト・トゥ・イメージ・ジェネレーティブ・モデルの有用性を活用するため,TIDA(Text-to-Text-to-Image Data Augmentation)を提案する。
T2Tモデルによる詳細な記述にT2Iモデルを適用することにより、フレキシブルかつ制御可能な方法で写真リアルなラベル付き画像を生成することができる。
論文 参考訳(メタデータ) (2023-04-18T08:40:30Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。