Fugu-MT 論文翻訳(概要): Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable Interventions for Robust Representations

論文の概要: Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable Interventions for Robust Representations

arxiv url: http://arxiv.org/abs/2212.11237v2
Date: Thu, 6 Apr 2023 14:32:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-07 17:24:03.235207
Title: Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable Interventions for Robust Representations
Title（参考訳）: テキストから画像へ:ロバスト表現のための解釈可能なインターベンションを可能にする
Authors: Jianhao Yuan, Francesco Pinto, Adam Davies, Aarushi Gupta, Philip Torr
Abstract要約: テキスト・トゥ・イメージ・ジェネレータは、自然言語のプロンプトによる介入を近似するために画像を編集する能力は、より堅牢な分類器を訓練するための有望な技術であることを示す。様々なプロンプト戦略が、最先端のパフォーマンスを達成するのに十分な拡張トレーニングデータセットを作成するのに有効であることがわかった。
参考スコア（独自算出の注目度）: 4.499833362998487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural image classifiers are known to undergo severe performance degradation when exposed to input that exhibits covariate shift with respect to the training distribution. In this paper, we show that recent Text-to-Image (T2I) generators' ability to edit images to approximate interventions via natural-language prompts is a promising technology to train more robust classifiers. Using current open-source models, we find that a variety of prompting strategies are effective for producing augmented training datasets sufficient to achieve state-of-the-art performance (1) in widely adopted Single-Domain Generalization benchmarks, (2) in reducing classifiers' dependency on spurious features and (3) facilitating the application of Multi-Domain Generalization techniques when fewer training domains are available.
Abstract（参考訳）: ニューラルイメージ分類器は、トレーニング分布に対する共変量シフトを示す入力に曝露した場合、厳しい性能劣化を経ることが知られている。本稿では,最近のt2i(text-to-image)ジェネレータによる自然言語プロンプトによる画像編集能力が,より堅牢な分類器を訓練するための有望な技術であることを示す。現在のオープンソースモデルを用いて,(1)広く採用されている単一ドメイン一般化ベンチマーク,(2)素早い特徴に対する分類器の依存性の低減,(3)少ないトレーニング領域が利用できる場合のマルチドメイン一般化手法の適用の促進などにおいて,高度なトレーニングデータセットを生成する上で,さまざまなプロンプト戦略が有効であることが判明した。

関連論文リスト

Breaking Latent Prior Bias in Detectors for Generalizable AIGC Image Detection [11.907536189598577]
現在のAIGC検出器は、トレーニングに使用される同じジェネレータで生成された画像に対してほぼ完璧な精度を達成するが、目に見えないジェネレータからの出力に一般化するのに苦労する。検出器は、堅牢な生成アーティファクトを学ぶのではなく、初期ノイズベクトルから発生するパターンに関連するショートカットを学習する。そこで我々は, 発電機の出力多様体に残る逆数例を生成するオン・マニフォールド・逆数訓練(OMAT)を提案する。
論文参考訳（メタデータ） (2025-06-01T07:20:45Z)
Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文参考訳（メタデータ） (2025-05-19T03:45:16Z)
NOFT: Test-Time Noise Finetune via Information Bottleneck for Highly Correlated Asset Creation [70.96827354717459]
拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)を生成する強力なツールを提供する。本研究では,高相関・多彩な画像を生成するため,安定拡散を用いたノイズファインチューンNOFTモジュールを提案する。
論文参考訳（メタデータ） (2025-05-18T05:09:47Z)
Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation [66.66243874361103]
1) 生成されたサンプルを対象のドメインに整列させ、2) トレーニングデータ以外の情報的なサンプルを生成する。本稿では,ドメインアライメントに必要な概念に関連する重みのみを選択的に識別・更新する,新しい微調整手法であるConcept-Aware LoRAを提案する。都市・シーンのセグメンテーション, ベースライン, 最先端の手法をドメイン内設定で生成する上での有効性を実証する。
論文参考訳（メタデータ） (2025-03-28T06:23:29Z)
NFIG: Autoregressive Image Generation with Next-Frequency Prediction [50.69346038028673]
textbfNext-textbfFrequency textbfImage textbfGeneration (textbfNFIG) は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。提案手法では,まず低周波成分を生成し,より少ないトークンで大域構造を確立する。
論文参考訳（メタデータ） (2025-03-10T08:59:10Z)
TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation [34.73820805875123]
TIDE (Temporal-aware Sparse Autoencoders for Interpretable Diffusion transformErs) は,DiTアクティベーション層内の時間的再構築を段階的に促進する新しいフレームワークである。 TIDEはスパースオートエンコーダ(SAE)とスパースボトルネック層を使用して、解釈可能かつ階層的な特徴を抽出する。提案手法は,1e-3の平均2乗誤差(MSE)とコサイン類似度(0.97。
論文参考訳（メタデータ） (2025-03-10T08:35:51Z)
OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。 OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文参考訳（メタデータ） (2024-11-22T17:55:15Z)
Semi-Truths: A Large-Scale Dataset of AI-Augmented Images for Evaluating Robustness of AI-Generated Image detectors [62.63467652611788]
実画像27,600枚、223,400枚、AI拡張画像1,472,700枚を含むSEMI-TRUTHSを紹介する。それぞれの画像には、検出器のロバスト性の標準化と目標評価のためのメタデータが添付されている。以上の結果から,現状の検出器は摂動の種類や程度,データ分布,拡張方法に様々な感度を示すことが示唆された。
論文参考訳（メタデータ） (2024-11-12T01:17:27Z)
Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。所望のプロパティの出現を促進するオンラインプロンプト最適化フレームワークを開発した。次に、このジェネリックプロンプトを、マイノリティーな特徴の生成を促進する特殊な解決器に仕立てる。
論文参考訳（メタデータ） (2024-10-10T11:56:09Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
GeNIe: Generative Hard Negative Images Through Diffusion [16.619150568764262]
生成AIの最近の進歩により、自然画像に似たデータを生成する、より洗練された拡張技術が実現された。本稿では,テキストプロンプトに条件付き潜伏拡散モデルを利用した新しい拡張手法であるGeNIeを紹介する。本実験は,本手法の有効性と先行技術よりも優れた性能を示すものである。
論文参考訳（メタデータ） (2023-12-05T07:34:30Z)
DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文参考訳（メタデータ） (2023-05-24T07:59:44Z)
TTIDA: Controllable Generative Data Augmentation via Text-to-Text and Text-to-Image Models [37.2392848181456]
本稿では,テキスト・トゥ・テクスト・トゥ・イメージ・データ拡張のための大規模事前学習テキスト・ツー・テクスト・トゥ・イメージ・ジェネレーティブ・モデルの有用性を活用するため,TIDA(Text-to-Text-to-Image Data Augmentation)を提案する。 T2Tモデルによる詳細な記述にT2Iモデルを適用することにより、フレキシブルかつ制御可能な方法で写真リアルなラベル付き画像を生成することができる。
論文参考訳（メタデータ） (2023-04-18T08:40:30Z)
DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文参考訳（メタデータ） (2023-03-13T06:05:18Z)
StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文参考訳（メタデータ） (2023-03-01T18:59:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。