論文の概要: Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable
Interventions for Robust Representations
- arxiv url: http://arxiv.org/abs/2212.11237v2
- Date: Thu, 6 Apr 2023 14:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 17:24:03.235207
- Title: Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable
Interventions for Robust Representations
- Title(参考訳): テキストから画像へ:ロバスト表現のための解釈可能なインターベンションを可能にする
- Authors: Jianhao Yuan, Francesco Pinto, Adam Davies, Aarushi Gupta, Philip Torr
- Abstract要約: テキスト・トゥ・イメージ・ジェネレータは、自然言語のプロンプトによる介入を近似するために画像を編集する能力は、より堅牢な分類器を訓練するための有望な技術であることを示す。
様々なプロンプト戦略が、最先端のパフォーマンスを達成するのに十分な拡張トレーニングデータセットを作成するのに有効であることがわかった。
- 参考スコア(独自算出の注目度): 4.499833362998487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural image classifiers are known to undergo severe performance degradation
when exposed to input that exhibits covariate shift with respect to the
training distribution. In this paper, we show that recent Text-to-Image (T2I)
generators' ability to edit images to approximate interventions via
natural-language prompts is a promising technology to train more robust
classifiers. Using current open-source models, we find that a variety of
prompting strategies are effective for producing augmented training datasets
sufficient to achieve state-of-the-art performance (1) in widely adopted
Single-Domain Generalization benchmarks, (2) in reducing classifiers'
dependency on spurious features and (3) facilitating the application of
Multi-Domain Generalization techniques when fewer training domains are
available.
- Abstract(参考訳): ニューラルイメージ分類器は、トレーニング分布に対する共変量シフトを示す入力に曝露した場合、厳しい性能劣化を経ることが知られている。
本稿では,最近のt2i(text-to-image)ジェネレータによる自然言語プロンプトによる画像編集能力が,より堅牢な分類器を訓練するための有望な技術であることを示す。
現在のオープンソースモデルを用いて,(1)広く採用されている単一ドメイン一般化ベンチマーク,(2)素早い特徴に対する分類器の依存性の低減,(3)少ないトレーニング領域が利用できる場合のマルチドメイン一般化手法の適用の促進などにおいて,高度なトレーニングデータセットを生成する上で,さまざまなプロンプト戦略が有効であることが判明した。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Augmented Equivariant Attention Networks for Microscopy Image
Reconstruction [44.965820245167635]
高品質または高解像度の電子顕微鏡(EM)と蛍光顕微鏡(FM)の画像を取るのに時間がかかり、費用がかかる。
深層学習により、様々な種類の顕微鏡画像再構成のための画像から画像への変換タスクを実行できる。
本稿では,画像間の依存関係を捕捉する機能を持つ拡張同変アテンションネットワーク(AEANets)を提案する。
論文 参考訳(メタデータ) (2020-11-06T23:37:49Z) - Evaluating and Mitigating Bias in Image Classifiers: A Causal
Perspective Using Counterfactuals [27.539001365348906]
本稿では、逆学習推論(ALI)の改良版に構造因果モデル(SCM)を組み込むことにより、逆ファクトアルを生成する方法を提案する。
本稿では,事前学習された機械学習分類器の説明方法を示し,そのバイアスを評価し,そのバイアスを正則化器を用いて緩和する方法について述べる。
論文 参考訳(メタデータ) (2020-09-17T13:19:31Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。