論文の概要: Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable
Interventions for Robust Representations
- arxiv url: http://arxiv.org/abs/2212.11237v1
- Date: Wed, 21 Dec 2022 18:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:24:03.770042
- Title: Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable
Interventions for Robust Representations
- Title(参考訳): テキストから画像へ:ロバスト表現のための解釈可能なインターベンションを可能にする
- Authors: Jianhao Yuan, Francesco Pinto, Adam Davies, Aarushi Gupta, Philip Torr
- Abstract要約: テキスト・ツー・イメージ・ジェネレータは、自然言語のプロンプトを通じて画像介入をシミュレートする能力を利用して、より堅牢なモデルを訓練できることを示す。
種々のプロンプト機構は,最先端の性能を達成するのに十分な合成訓練データを生成するのに有効であることがわかった。
- 参考スコア(独自算出の注目度): 4.499833362998487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural image classifiers are known to undergo severe performance degradation
when exposed to input that exhibits covariate-shift with respect to the
training distribution. Successful hand-crafted augmentation pipelines aim at
either approximating the expected test domain conditions or to perturb the
features that are specific to the training environment. The development of
effective pipelines is typically cumbersome, and produce transformations whose
impact on the classifier performance are hard to understand and control. In
this paper, we show that recent Text-to-Image (T2I) generators' ability to
simulate image interventions via natural-language prompts can be leveraged to
train more robust models, offering a more interpretable and controllable
alternative to traditional augmentation methods. We find that a variety of
prompting mechanisms are effective for producing synthetic training data
sufficient to achieve state-of-the-art performance in widely-adopted
domain-generalization benchmarks and reduce classifiers' dependency on spurious
features. Our work suggests that further progress in T2I generation and a
tighter integration with other research fields may represent a significant step
towards the development of more robust machine learning systems.
- Abstract(参考訳): ニューラルイメージ分類器は、トレーニング分布に関して共変量シフトを示す入力に曝されると、厳しい性能劣化を経験することが知られている。
手作りの強化パイプラインの成功は、期待されるテストドメイン条件を近似するか、トレーニング環境特有の特徴を摂動させることを目標としている。
効果的なパイプラインの開発は一般的に面倒で、分類器のパフォーマンスに影響を及ぼす変換は理解や制御が難しい。
本稿では,近年のテキスト・トゥ・イメージ(T2I)ジェネレータによる自然言語プロンプトによる画像介入をシミュレートする能力を利用して,より堅牢なモデルをトレーニングし,従来の拡張手法よりも解釈可能で制御可能な代替手段を提供することを示す。
様々なプロンプト機構は、広く評価された領域一般化ベンチマークにおいて、最先端の性能を達成するのに十分な合成トレーニングデータを生成するのに有効であり、スプリアス機能に対する分類器の依存性を低減するのに有効である。
我々の研究は、T2I生成のさらなる進歩と、他の研究分野との緊密な統合が、より堅牢な機械学習システムの開発への大きな一歩であることを示唆している。
関連論文リスト
- Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Leveraging Conditional Generative Models in a General Explanation
Framework of Classifier Decisions [0.0]
2つの生成した画像の差分として視覚的説明が生成可能であることを示す。
一般定式化の2つの異なる近似と実装を提案する。
論文 参考訳(メタデータ) (2021-06-21T09:41:54Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Augmented Equivariant Attention Networks for Microscopy Image
Reconstruction [44.965820245167635]
高品質または高解像度の電子顕微鏡(EM)と蛍光顕微鏡(FM)の画像を取るのに時間がかかり、費用がかかる。
深層学習により、様々な種類の顕微鏡画像再構成のための画像から画像への変換タスクを実行できる。
本稿では,画像間の依存関係を捕捉する機能を持つ拡張同変アテンションネットワーク(AEANets)を提案する。
論文 参考訳(メタデータ) (2020-11-06T23:37:49Z) - Evaluating and Mitigating Bias in Image Classifiers: A Causal
Perspective Using Counterfactuals [27.539001365348906]
本稿では、逆学習推論(ALI)の改良版に構造因果モデル(SCM)を組み込むことにより、逆ファクトアルを生成する方法を提案する。
本稿では,事前学習された機械学習分類器の説明方法を示し,そのバイアスを評価し,そのバイアスを正則化器を用いて緩和する方法について述べる。
論文 参考訳(メタデータ) (2020-09-17T13:19:31Z) - Deep Variational Network Toward Blind Image Restoration [55.33102369856991]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。