Fugu-MT 論文翻訳(概要): Generating images of rare concepts using pre-trained diffusion models

論文の概要: Generating images of rare concepts using pre-trained diffusion models

arxiv url: http://arxiv.org/abs/2304.14530v3
Date: Wed, 27 Dec 2023 07:42:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 23:15:03.523947
Title: Generating images of rare concepts using pre-trained diffusion models
Title（参考訳）: 事前学習拡散モデルを用いた希少概念の生成
Authors: Dvir Samuel, Rami Ben-Ari, Simon Raviv, Nir Darshan, Gal Chechik
Abstract要約: テキスト・ツー・イメージ拡散モデルは高品質な画像を合成できるが、様々な制限がある。これらの制限は、トレーニングデータの長い尾の性質に起因していることが示されています。ノイズ空間内で適切な生成種を慎重に選択することで、稀な概念を正しく生成できることが示される。
参考スコア（独自算出の注目度）: 32.5337654536764
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image diffusion models can synthesize high-quality images, but they have various limitations. Here we highlight a common failure mode of these models, namely, generating uncommon concepts and structured concepts like hand palms. We show that their limitation is partly due to the long-tail nature of their training data: web-crawled data sets are strongly unbalanced, causing models to under-represent concepts from the tail of the distribution. We characterize the effect of unbalanced training data on text-to-image models and offer a remedy. We show that rare concepts can be correctly generated by carefully selecting suitable generation seeds in the noise space, using a small reference set of images, a technique that we call SeedSelect. SeedSelect does not require retraining or finetuning the diffusion model. We assess the faithfulness, quality and diversity of SeedSelect in creating rare objects and generating complex formations like hand images, and find it consistently achieves superior performance. We further show the advantage of SeedSelect in semantic data augmentation. Generating semantically appropriate images can successfully improve performance in few-shot recognition benchmarks, for classes from the head and from the tail of the training data of diffusion models
Abstract（参考訳）: テキストと画像の拡散モデルは高品質な画像を合成できるが、様々な制限がある。ここでは、これらのモデルの一般的な失敗モード、すなわち、手のひらのような一般的でない概念と構造化された概念の生成を強調する。 webクローリングされたデータセットは、強くバランスがとれず、モデルが分散のテールから概念を過小表現する原因となっている。テキストから画像へのモデルに対する不均衡なトレーニングデータの効果を特徴付け、修正を提供する。本稿では,SedSelectと呼ぶ画像の参照セットを用いて,ノイズ空間における適切な生成種を慎重に選択することで,稀な概念を正しく生成できることを示す。 SeedSelectは拡散モデルの再トレーニングや微調整を必要としない。種子の忠実性,品質,多様性を評価して希少な物体を作製し,ハンドイメージのような複雑な形状を生成し,一貫して優れた性能を実現する。さらにセマンティックデータ拡張におけるSeedSelectの利点を示す。意味的適切な画像を生成することは、頭部および拡散モデルの訓練データ尾部からのクラスにおいて、数ショット認識ベンチマークのパフォーマンスを向上させることができる

関連論文リスト

Ambient Diffusion Omni: Training Good Models with Bad Data [45.821861121026394]
拡散モデルの品質向上のために,低品質,合成,分布外画像の使い方を示す。我々は、利用可能なすべての画像から信号を取り出すことができる拡散モデルを訓練するための原則的なフレームワークであるAmbient Omniを提案する。
論文参考訳（メタデータ） (2025-06-10T22:37:39Z)
Random Conditioning with Distillation for Data-Efficient Diffusion Model Compression [7.859083902013309]
拡散モデルは、プログレッシブデノケーションにより高品質な画像を生成するが、大きなモデルサイズと繰り返しサンプリングのために計算集約的である。本研究では,ランダムに選択したテキスト条件と雑音のある画像とをペアリングして,効率的な無画像知識蒸留を可能にする手法であるランダム条件付けを提案する。提案手法により,条件固有の画像を生成することなく条件空間を探索することが可能となり,生成品質と効率の両面で顕著な改善が得られた。
論文参考訳（メタデータ） (2025-04-02T05:41:19Z)
Not Every Image is Worth a Thousand Words: Quantifying Originality in Stable Diffusion [21.252145402613472]
本研究は,テキスト・ツー・イメージ(T2I)生成拡散モデルにおける原点の定量化という課題に対処する。本稿では,テキストのインバージョンを利用して画像の原点度をモデルによる再構成に必要なトークン数に基づいて測定する手法を提案する。
論文参考訳（メタデータ） (2024-08-15T14:42:02Z)
Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文参考訳（メタデータ） (2024-02-16T16:47:21Z)
Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-01-20T08:10:43Z)
Conditional Image Generation with Pretrained Generative Model [1.4685355149711303]
拡散モデルは、GANモデルと比較して高品質な画像を生成する能力で人気を集めている。これらのモデルには膨大な量のデータ、計算資源、そして訓練を成功させるために巧妙なチューニングが必要である。本研究では,条件付き画像生成のために,事前学習した非条件拡散モデルを活用する手法を提案する。
論文参考訳（メタデータ） (2023-12-20T18:27:53Z)
Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。 AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文参考訳（メタデータ） (2023-10-05T17:59:18Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
Conditional Generation from Unconditional Diffusion Models using Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文参考訳（メタデータ） (2023-06-02T20:09:57Z)
Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文参考訳（メタデータ） (2023-01-30T18:53:09Z)
Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文参考訳（メタデータ） (2021-10-06T16:27:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。