Fugu-MT 論文翻訳(概要): Augmented Conditioning Is Enough For Effective Training Image Generation

論文の概要: Augmented Conditioning Is Enough For Effective Training Image Generation

arxiv url: http://arxiv.org/abs/2502.04475v1
Date: Thu, 06 Feb 2025 19:57:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:32.914421
Title: Augmented Conditioning Is Enough For Effective Training Image Generation
Title（参考訳）: 強化されたコンディショニングは、効果的なトレーニング画像生成に十分
Authors: Jiahui Chen, Amy Zhang, Adriana Romero-Soriano,
Abstract要約: 実画像の生成プロセスの条件付けとテキストのプロンプトにより、下流トレーニングに有効な合成データセットとして機能する世代を生成することが判明した。我々は,5つの確立された長尾画像と少数ショット画像の分類ベンチマークにおいて,拡張条件を検証した。
参考スコア（独自算出の注目度）: 11.60839452103417
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image generation abilities of text-to-image diffusion models have significantly advanced, yielding highly photo-realistic images from descriptive text and increasing the viability of leveraging synthetic images to train computer vision models. To serve as effective training data, generated images must be highly realistic while also sufficiently diverse within the support of the target data distribution. Yet, state-of-the-art conditional image generation models have been primarily optimized for creative applications, prioritizing image realism and prompt adherence over conditional diversity. In this paper, we investigate how to improve the diversity of generated images with the goal of increasing their effectiveness to train downstream image classification models, without fine-tuning the image generation model. We find that conditioning the generation process on an augmented real image and text prompt produces generations that serve as effective synthetic datasets for downstream training. Conditioning on real training images contextualizes the generation process to produce images that are in-domain with the real image distribution, while data augmentations introduce visual diversity that improves the performance of the downstream classifier. We validate augmentation-conditioning on a total of five established long-tail and few-shot image classification benchmarks and show that leveraging augmentations to condition the generation process results in consistent improvements over the state-of-the-art on the long-tailed benchmark and remarkable gains in extreme few-shot regimes of the remaining four benchmarks. These results constitute an important step towards effectively leveraging synthetic data for downstream training.
Abstract（参考訳）: テキストと画像の拡散モデルの画像生成能力は大幅に進歩し、記述的テキストから高画質な画像が得られ、合成画像を利用してコンピュータビジョンモデルを訓練する可能性が高まった。効果的なトレーニングデータとして機能させるためには、生成した画像は極めて現実的でありながら、ターゲットデータ分布のサポートにおいて十分に多様でなければならない。しかし、現状の条件付き画像生成モデルは、主に創造的な用途に最適化され、画像リアリズムを優先し、条件付き多様性を優先する。本稿では、画像生成モデルを微調整することなく、下流画像分類モデルの訓練効果を高めることを目的として、生成画像の多様性を改善する方法について検討する。実画像の生成プロセスの条件付けとテキストのプロンプトにより、下流トレーニングに有効な合成データセットとして機能する世代を生成することが判明した。実訓練画像の条件付けは、生成過程をコンテキスト化し、実際の画像分布とドメイン内にある画像を生成する一方、データ拡張は、下流分類器の性能を改善する視覚的多様性を導入する。我々は,5つの確立された長尾画像と少数ショット画像の分類ベンチマークで拡張条件を検証し,生成プロセスの条件付けに拡張を活用すれば,長尾画像のベンチマーク上での最先端よりも一貫した改善が得られ,残りの4つのベンチマークの極端に数発の精度が向上することを示す。これらの結果は、下流トレーニングに合成データを効果的に活用するための重要なステップとなっている。

関連論文リスト

Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。 Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文参考訳（メタデータ） (2025-05-29T16:15:48Z)
Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文参考訳（メタデータ） (2025-03-17T17:58:30Z)
Dataset Augmentation by Mixing Visual Concepts [3.5420134832331334]
本稿では,事前学習した拡散モデルの微調整によるデータセット拡張手法を提案する。我々は、拡散モデルに実際の画像と新しいテキスト埋め込みを条件付けすることで適応する。提案手法は,ベンチマーク分類タスクにおける最先端の強化手法より優れている。
論文参考訳（メタデータ） (2024-12-19T19:42:22Z)
Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文参考訳（メタデータ） (2024-06-08T10:43:49Z)
YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文参考訳（メタデータ） (2024-04-08T16:51:19Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文参考訳（メタデータ） (2024-03-11T08:45:31Z)
Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文参考訳（メタデータ） (2023-11-07T12:57:58Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-07-17T14:38:11Z)
Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文参考訳（メタデータ） (2022-10-14T06:54:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。