論文の概要: Content-Aware Preserving Image Generation
- arxiv url: http://arxiv.org/abs/2411.09871v1
- Date: Fri, 15 Nov 2024 01:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:21.269016
- Title: Content-Aware Preserving Image Generation
- Title(参考訳): コンテンツ認識による画像生成
- Authors: Giang H. Le, Anh Q. Nguyen, Byeongkeun Kang, Yeejin Lee,
- Abstract要約: 本稿では,出力画像に所望のコンテンツを組み込むように設計された,新たな画像生成フレームワークを提案する。
このフレームワークは高度な符号化技術を利用し、コンテンツ融合と周波数符号化モジュールを統合する。
Flickr-Faces-High Quality、Animal Faces High Quality、大規模シーン理解データセットなど、広く使用されているベンチマークデータセットでテストが行われる。
- 参考スコア(独自算出の注目度): 6.774749118736612
- License:
- Abstract: Remarkable progress has been achieved in image generation with the introduction of generative models. However, precisely controlling the content in generated images remains a challenging task due to their fundamental training objective. This paper addresses this challenge by proposing a novel image generation framework explicitly designed to incorporate desired content in output images. The framework utilizes advanced encoding techniques, integrating subnetworks called content fusion and frequency encoding modules. The frequency encoding module first captures features and structures of reference images by exclusively focusing on selected frequency components. Subsequently, the content fusion module generates a content-guiding vector that encapsulates desired content features. During the image generation process, content-guiding vectors from real images are fused with projected noise vectors. This ensures the production of generated images that not only maintain consistent content from guiding images but also exhibit diverse stylistic variations. To validate the effectiveness of the proposed framework in preserving content attributes, extensive experiments are conducted on widely used benchmark datasets, including Flickr-Faces-High Quality, Animal Faces High Quality, and Large-scale Scene Understanding datasets.
- Abstract(参考訳): 生成モデルの導入により、画像生成において顕著な進歩が達成されている。
しかし, 生成した画像のコンテンツを正確に制御することは, 基礎的な訓練目的のため, 依然として難しい課題である。
本稿では,出力画像に所望のコンテンツを組み込むように設計された,新たな画像生成フレームワークを提案することで,この問題に対処する。
このフレームワークは高度な符号化技術を利用し、コンテンツ融合と周波数符号化モジュールと呼ばれるサブネットワークを統合する。
周波数符号化モジュールは、選択された周波数成分のみに着目して、まず参照画像の特徴と構造をキャプチャする。
その後、コンテンツ融合モジュールは、所望のコンテンツ特徴をカプセル化するコンテンツ誘導ベクトルを生成する。
画像生成過程では、実画像からのコンテンツ案内ベクトルに投影されたノイズベクトルを融合させる。
これにより、ガイド画像から一貫した内容を維持するだけでなく、多様なスタイルのバリエーションを示す生成画像の生成が保証される。
コンテンツ属性を保存するためのフレームワークの有効性を検証するため,Flickr-Faces-High Quality,Animal Faces High Quality,および大規模シーン理解データセットなど,広く使用されているベンチマークデータセットに対して広範な実験を行った。
関連論文リスト
- TAGE: Trustworthy Attribute Group Editing for Stable Few-shot Image Generation [10.569380190029317]
TAGEは3つの積分モジュールからなる革新的な画像生成ネットワークである。
CPMモジュールは、カテゴリに依存しない属性のセマンティックディメンションを掘り下げて、それらを個別のコードブックにカプセル化する。
PSMモジュールは、CPMのTransformerアーキテクチャにシームレスに統合されるセマンティックキューを生成する。
論文 参考訳(メタデータ) (2024-10-23T13:26:19Z) - StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - Style-Extracting Diffusion Models for Semi-Supervised Histopathology Segmentation [6.479933058008389]
スタイル抽出拡散モデルでは、下流タスクに有用な特徴のない画像を生成する。
本研究では,概念実証として自然画像データセット上での手法の有効性を示す。
患者間でのセグメンテーション結果の改善と性能変動の低減を図り, 得られた画像の付加価値を検証する。
論文 参考訳(メタデータ) (2024-03-21T14:36:59Z) - SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation [39.84456803546365]
SSRエンコーダ(SSR-Encoder)は、単一のまたは複数の参照画像から任意の対象を選択的にキャプチャするように設計された新しいアーキテクチャである。
テストタイムの微調整を必要とせずに、テキストやマスクなど、さまざまなクエリのモダリティに応答する。
SSRエンコーダはモデルの一般化性と効率によって特徴付けられ、様々なカスタムモデルや制御モジュールに対応している。
論文 参考訳(メタデータ) (2023-12-26T14:39:11Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z) - A Content Transformation Block For Image Style Transfer [16.25958537802466]
本稿では,コンテンツイメージのコンテンツとスタイルを意識したスタイル化に焦点を当てた。
写真やスタイルのサンプルに現れる類似のコンテンツを利用して、スタイルがコンテンツの詳細をどう変えるかを学ぶ。
本モデルのロバスト性と速度は,リアルタイムかつ高精細なビデオスタイリングを可能にする。
論文 参考訳(メタデータ) (2020-03-18T18:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。