Fugu-MT 論文翻訳(概要): Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable Interventions for Robust Representations

論文の概要: Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable Interventions for Robust Representations

arxiv url: http://arxiv.org/abs/2212.11237v1
Date: Wed, 21 Dec 2022 18:07:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-22 15:24:03.770042
Title: Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable Interventions for Robust Representations
Title（参考訳）: テキストから画像へ:ロバスト表現のための解釈可能なインターベンションを可能にする
Authors: Jianhao Yuan, Francesco Pinto, Adam Davies, Aarushi Gupta, Philip Torr
Abstract要約: テキスト・ツー・イメージ・ジェネレータは、自然言語のプロンプトを通じて画像介入をシミュレートする能力を利用して、より堅牢なモデルを訓練できることを示す。種々のプロンプト機構は,最先端の性能を達成するのに十分な合成訓練データを生成するのに有効であることがわかった。
参考スコア（独自算出の注目度）: 4.499833362998487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural image classifiers are known to undergo severe performance degradation when exposed to input that exhibits covariate-shift with respect to the training distribution. Successful hand-crafted augmentation pipelines aim at either approximating the expected test domain conditions or to perturb the features that are specific to the training environment. The development of effective pipelines is typically cumbersome, and produce transformations whose impact on the classifier performance are hard to understand and control. In this paper, we show that recent Text-to-Image (T2I) generators' ability to simulate image interventions via natural-language prompts can be leveraged to train more robust models, offering a more interpretable and controllable alternative to traditional augmentation methods. We find that a variety of prompting mechanisms are effective for producing synthetic training data sufficient to achieve state-of-the-art performance in widely-adopted domain-generalization benchmarks and reduce classifiers' dependency on spurious features. Our work suggests that further progress in T2I generation and a tighter integration with other research fields may represent a significant step towards the development of more robust machine learning systems.
Abstract（参考訳）: ニューラルイメージ分類器は、トレーニング分布に関して共変量シフトを示す入力に曝されると、厳しい性能劣化を経験することが知られている。手作りの強化パイプラインの成功は、期待されるテストドメイン条件を近似するか、トレーニング環境特有の特徴を摂動させることを目標としている。効果的なパイプラインの開発は一般的に面倒で、分類器のパフォーマンスに影響を及ぼす変換は理解や制御が難しい。本稿では,近年のテキスト・トゥ・イメージ(T2I)ジェネレータによる自然言語プロンプトによる画像介入をシミュレートする能力を利用して,より堅牢なモデルをトレーニングし,従来の拡張手法よりも解釈可能で制御可能な代替手段を提供することを示す。様々なプロンプト機構は、広く評価された領域一般化ベンチマークにおいて、最先端の性能を達成するのに十分な合成トレーニングデータを生成するのに有効であり、スプリアス機能に対する分類器の依存性を低減するのに有効である。我々の研究は、T2I生成のさらなる進歩と、他の研究分野との緊密な統合が、より堅牢な機械学習システムの開発への大きな一歩であることを示唆している。

関連論文リスト

Breaking Latent Prior Bias in Detectors for Generalizable AIGC Image Detection [11.907536189598577]
現在のAIGC検出器は、トレーニングに使用される同じジェネレータで生成された画像に対してほぼ完璧な精度を達成するが、目に見えないジェネレータからの出力に一般化するのに苦労する。検出器は、堅牢な生成アーティファクトを学ぶのではなく、初期ノイズベクトルから発生するパターンに関連するショートカットを学習する。そこで我々は, 発電機の出力多様体に残る逆数例を生成するオン・マニフォールド・逆数訓練(OMAT)を提案する。
論文参考訳（メタデータ） (2025-06-01T07:20:45Z)
Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文参考訳（メタデータ） (2025-05-19T03:45:16Z)
NOFT: Test-Time Noise Finetune via Information Bottleneck for Highly Correlated Asset Creation [70.96827354717459]
拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)を生成する強力なツールを提供する。本研究では,高相関・多彩な画像を生成するため,安定拡散を用いたノイズファインチューンNOFTモジュールを提案する。
論文参考訳（メタデータ） (2025-05-18T05:09:47Z)
Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation [66.66243874361103]
1) 生成されたサンプルを対象のドメインに整列させ、2) トレーニングデータ以外の情報的なサンプルを生成する。本稿では,ドメインアライメントに必要な概念に関連する重みのみを選択的に識別・更新する,新しい微調整手法であるConcept-Aware LoRAを提案する。都市・シーンのセグメンテーション, ベースライン, 最先端の手法をドメイン内設定で生成する上での有効性を実証する。
論文参考訳（メタデータ） (2025-03-28T06:23:29Z)
NFIG: Autoregressive Image Generation with Next-Frequency Prediction [50.69346038028673]
textbfNext-textbfFrequency textbfImage textbfGeneration (textbfNFIG) は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。提案手法では,まず低周波成分を生成し,より少ないトークンで大域構造を確立する。
論文参考訳（メタデータ） (2025-03-10T08:59:10Z)
TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation [34.73820805875123]
TIDE (Temporal-aware Sparse Autoencoders for Interpretable Diffusion transformErs) は,DiTアクティベーション層内の時間的再構築を段階的に促進する新しいフレームワークである。 TIDEはスパースオートエンコーダ(SAE)とスパースボトルネック層を使用して、解釈可能かつ階層的な特徴を抽出する。提案手法は,1e-3の平均2乗誤差(MSE)とコサイン類似度(0.97。
論文参考訳（メタデータ） (2025-03-10T08:35:51Z)
OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。 OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文参考訳（メタデータ） (2024-11-22T17:55:15Z)
Semi-Truths: A Large-Scale Dataset of AI-Augmented Images for Evaluating Robustness of AI-Generated Image detectors [62.63467652611788]
実画像27,600枚、223,400枚、AI拡張画像1,472,700枚を含むSEMI-TRUTHSを紹介する。それぞれの画像には、検出器のロバスト性の標準化と目標評価のためのメタデータが添付されている。以上の結果から,現状の検出器は摂動の種類や程度,データ分布,拡張方法に様々な感度を示すことが示唆された。
論文参考訳（メタデータ） (2024-11-12T01:17:27Z)
Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。所望のプロパティの出現を促進するオンラインプロンプト最適化フレームワークを開発した。次に、このジェネリックプロンプトを、マイノリティーな特徴の生成を促進する特殊な解決器に仕立てる。
論文参考訳（メタデータ） (2024-10-10T11:56:09Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
GeNIe: Generative Hard Negative Images Through Diffusion [16.619150568764262]
生成AIの最近の進歩により、自然画像に似たデータを生成する、より洗練された拡張技術が実現された。本稿では,テキストプロンプトに条件付き潜伏拡散モデルを利用した新しい拡張手法であるGeNIeを紹介する。本実験は,本手法の有効性と先行技術よりも優れた性能を示すものである。
論文参考訳（メタデータ） (2023-12-05T07:34:30Z)
DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文参考訳（メタデータ） (2023-05-24T07:59:44Z)
TTIDA: Controllable Generative Data Augmentation via Text-to-Text and Text-to-Image Models [37.2392848181456]
本稿では,テキスト・トゥ・テクスト・トゥ・イメージ・データ拡張のための大規模事前学習テキスト・ツー・テクスト・トゥ・イメージ・ジェネレーティブ・モデルの有用性を活用するため,TIDA(Text-to-Text-to-Image Data Augmentation)を提案する。 T2Tモデルによる詳細な記述にT2Iモデルを適用することにより、フレキシブルかつ制御可能な方法で写真リアルなラベル付き画像を生成することができる。
論文参考訳（メタデータ） (2023-04-18T08:40:30Z)
DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文参考訳（メタデータ） (2023-03-13T06:05:18Z)
StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文参考訳（メタデータ） (2023-03-01T18:59:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。