論文の概要: Not Just Pretty Pictures: Toward Interventional Data Augmentation Using
Text-to-Image Generators
- arxiv url: http://arxiv.org/abs/2212.11237v3
- Date: Fri, 20 Oct 2023 14:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 13:58:20.696102
- Title: Not Just Pretty Pictures: Toward Interventional Data Augmentation Using
Text-to-Image Generators
- Title(参考訳): 美しい写真ばかりでなく:テキストから画像へのジェネレータによる介入的データ拡張に向けて
- Authors: Jianhao Yuan, Francesco Pinto, Adam Davies, Philip Torr
- Abstract要約: 我々は,テキスト・トゥ・イメージ(T2I)ジェネレータと関連する画像編集技術が,IDAの問題をいかに解決できるかを考察する。
我々は、T2I生成の重要な次元にまたがって、ドメインの一般化における様々なベンチマークの集合を実験する。
本稿では、画像編集と合成にT2Iを用いることの利点について論じるとともに、単純な検索ベースラインが驚くほど効果的な代替手段であることを示す。
- 参考スコア(独自算出の注目度): 13.167173258708436
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural image classifiers are known to undergo severe performance degradation
when exposed to inputs that exhibit covariate shifts with respect to the
training distribution. A general interventional data augmentation
(IDA)mechanism that simulates arbitrary interventions over spurious variables
has often been conjectured as a theoretical solution to this problem and
approximated to varying degrees of success. In this work, we study how well
modern Text-to-Image (T2I) generators and associated image editing techniques
can solve the problem of IDA. We experiment across a diverse collection of
benchmarks in domain generalization, ablating across key dimensions of T2I
generation, including interventional prompts, conditioning mechanisms, and
post-hoc filtering, showing that it substantially outperforms previously
state-of-the-art image augmentation techniques independently of how each
dimension is configured. We discuss the comparative advantages of using T2I for
image editing versus synthesis, also finding that a simple retrieval baseline
presents a surprisingly effective alternative, which raises interesting
questions about how generative models should be evaluated in the context of
domain generalization.
- Abstract(参考訳): ニューラルイメージ分類器は、トレーニング分布に関する共変量シフトを示す入力に曝露した場合、厳しい性能劣化を経験することが知られている。
突発変数に対する任意の介入をシミュレートする一般介入データ拡張(IDA)機構は、この問題の理論的解決としてしばしば予想され、様々な成功度に近似された。
本研究では,最新のテキスト・トゥ・イメージ(T2I)ジェネレータと関連する画像編集技術が,IDAの問題をいかに解決できるかを考察する。
介入的プロンプト,コンディショニング機構,ポストホックフィルタリングなど,t2i生成のキーディメンションにまたがるさまざまなベンチマーク群で実験を行い,各ディメンションの構成方法とは無関係に,それまでの最先端画像拡張技術を大きく上回ることを示した。
画像編集と合成にt2iを用いた場合の利点について考察し、また、単純な検索ベースラインが驚くほど効果的な代替案を示し、ドメイン一般化の文脈でどのように生成モデルを評価するべきかという興味深い疑問を提起する。
関連論文リスト
- Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Leveraging Conditional Generative Models in a General Explanation
Framework of Classifier Decisions [0.0]
2つの生成した画像の差分として視覚的説明が生成可能であることを示す。
一般定式化の2つの異なる近似と実装を提案する。
論文 参考訳(メタデータ) (2021-06-21T09:41:54Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Augmented Equivariant Attention Networks for Microscopy Image
Reconstruction [44.965820245167635]
高品質または高解像度の電子顕微鏡(EM)と蛍光顕微鏡(FM)の画像を取るのに時間がかかり、費用がかかる。
深層学習により、様々な種類の顕微鏡画像再構成のための画像から画像への変換タスクを実行できる。
本稿では,画像間の依存関係を捕捉する機能を持つ拡張同変アテンションネットワーク(AEANets)を提案する。
論文 参考訳(メタデータ) (2020-11-06T23:37:49Z) - Evaluating and Mitigating Bias in Image Classifiers: A Causal
Perspective Using Counterfactuals [27.539001365348906]
本稿では、逆学習推論(ALI)の改良版に構造因果モデル(SCM)を組み込むことにより、逆ファクトアルを生成する方法を提案する。
本稿では,事前学習された機械学習分類器の説明方法を示し,そのバイアスを評価し,そのバイアスを正則化器を用いて緩和する方法について述べる。
論文 参考訳(メタデータ) (2020-09-17T13:19:31Z) - Deep Variational Network Toward Blind Image Restoration [55.33102369856991]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。