Fugu-MT 論文翻訳(概要): Improving Few-shot Image Generation by Structural Discrimination and Textural Modulation

論文の概要: Improving Few-shot Image Generation by Structural Discrimination and Textural Modulation

arxiv url: http://arxiv.org/abs/2308.16110v1
Date: Wed, 30 Aug 2023 16:10:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-31 12:53:59.791425
Title: Improving Few-shot Image Generation by Structural Discrimination and Textural Modulation
Title（参考訳）: 構造識別とテクスチャ変調による少数ショット画像生成の改善
Authors: Mengping Yang, Zhe Wang, Wenyi Feng, Qian Zhang, Ting Xiao
Abstract要約: 画像生成の目的は、このカテゴリからいくつかの画像が与えられた場合、あるカテゴリに対して可塑性で多様な画像を生成することである。既存のアプローチでは、異なる画像をグローバルに補間するか、事前に定義された係数で局所表現を融合する。本稿では,内部局所表現に外部意味信号を注入する新しいメカニズムを提案する。
参考スコア（独自算出の注目度）: 10.389698647141296
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Few-shot image generation, which aims to produce plausible and diverse images for one category given a few images from this category, has drawn extensive attention. Existing approaches either globally interpolate different images or fuse local representations with pre-defined coefficients. However, such an intuitive combination of images/features only exploits the most relevant information for generation, leading to poor diversity and coarse-grained semantic fusion. To remedy this, this paper proposes a novel textural modulation (TexMod) mechanism to inject external semantic signals into internal local representations. Parameterized by the feedback from the discriminator, our TexMod enables more fined-grained semantic injection while maintaining the synthesis fidelity. Moreover, a global structural discriminator (StructD) is developed to explicitly guide the model to generate images with reasonable layout and outline. Furthermore, the frequency awareness of the model is reinforced by encouraging the model to distinguish frequency signals. Together with these techniques, we build a novel and effective model for few-shot image generation. The effectiveness of our model is identified by extensive experiments on three popular datasets and various settings. Besides achieving state-of-the-art synthesis performance on these datasets, our proposed techniques could be seamlessly integrated into existing models for a further performance boost.
Abstract（参考訳）: このカテゴリのいくつかの画像が与えられた1つのカテゴリに対して、可塑性で多様な画像を生成することを目的とした画像生成は、広く注目を集めている。既存のアプローチでは、異なるイメージをグローバルに補間するか、あらかじめ定義された係数で局所表現を融合する。しかし、このような直感的な画像と特徴の組み合わせは、生成に最も関連する情報のみを利用するため、多様性の低さと粗い粒度のセマンティクス融合につながる。そこで本稿では,外部意味信号を内部局所表現に注入する新しいテクスチャ変調(texmod)機構を提案する。識別器からのフィードバックによってパラメータ化され、我々のTexModはよりきめ細かいセマンティックインジェクションを合成の忠実さを維持しながら実現できる。さらに,グローバルな構造判別器(StructD)を開発し,合理的なレイアウトとアウトラインを持つ画像を生成する。さらに、モデルに周波数信号の識別を促すことにより、モデルの周波数認識を強化する。これらの技術と合わせて,数ショット画像生成のための斬新で効果的なモデルを構築した。本モデルの有効性は,3つの一般的なデータセットと様々な設定に関する広範な実験によって同定される。これらのデータセットで最先端の合成性能を実現するだけでなく、提案手法を既存のモデルにシームレスに統合することで、さらなるパフォーマンス向上を図ることができる。

関連論文リスト

Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
Boosting Generative Image Modeling via Joint Image-Feature Synthesis [10.32324138962724]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文参考訳（メタデータ） (2025-04-22T17:41:42Z)
Revealing the Implicit Noise-based Imprint of Generative Models [71.94916898756684]
本稿では,検出タスクにノイズに基づくモデル固有インプリントを利用する新しいフレームワークを提案する。様々な生成モデルからのインプリントを集約することにより、将来のモデルのインプリントを外挿してトレーニングデータを拡張することができる。提案手法は,GenImage,Synthbuster,Chameleonの3つの公開ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-12T12:04:53Z)
Are CLIP features all you need for Universal Synthetic Image Origin Attribution? [13.96698277726253]
本研究では,大規模な事前学習基盤モデルの特徴を取り入れたフレームワークを提案し,合成画像のオープンセット起点属性を実現する。我々は,低データ体制においても,本手法が顕著な帰属性能をもたらすことを示す。
論文参考訳（メタデータ） (2024-08-17T09:54:21Z)
Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。 MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。 2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文参考訳（メタデータ） (2024-07-26T16:30:18Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。 DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文参考訳（メタデータ） (2023-12-20T09:39:19Z)
Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文参考訳（メタデータ） (2023-12-07T14:55:13Z)
Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文参考訳（メタデータ） (2023-10-05T12:29:41Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。 2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文参考訳（メタデータ） (2022-11-22T18:59:50Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。