論文の概要: AIComposer: Any Style and Content Image Composition via Feature Integration
- arxiv url: http://arxiv.org/abs/2507.20721v1
- Date: Mon, 28 Jul 2025 11:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.090905
- Title: AIComposer: Any Style and Content Image Composition via Feature Integration
- Title(参考訳): AIComposer: 機能統合によるスタイルとコンテントイメージの構成
- Authors: Haowen Li, Zhenfeng Fan, Zhang Wen, Zhengzhou Zhu, Yunjin Li,
- Abstract要約: クロスドメイン画像の構成は未調査のままである。
本手法はテキストプロンプトを必要としないため,自然なスタイル化とシームレスな構成が可能である。
本手法は,定性評価と定量的評価の両方において最先端技術より優れている。
- 参考スコア(独自算出の注目度): 3.227277661633987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image composition has advanced significantly with large-scale pre-trained T2I diffusion models. Despite progress in same-domain composition, cross-domain composition remains under-explored. The main challenges are the stochastic nature of diffusion models and the style gap between input images, leading to failures and artifacts. Additionally, heavy reliance on text prompts limits practical applications. This paper presents the first cross-domain image composition method that does not require text prompts, allowing natural stylization and seamless compositions. Our method is efficient and robust, preserving the diffusion prior, as it involves minor steps for backward inversion and forward denoising without training the diffuser. Our method also uses a simple multilayer perceptron network to integrate CLIP features from foreground and background, manipulating diffusion with a local cross-attention strategy. It effectively preserves foreground content while enabling stable stylization without a pre-stylization network. Finally, we create a benchmark dataset with diverse contents and styles for fair evaluation, addressing the lack of testing datasets for cross-domain image composition. Our method outperforms state-of-the-art techniques in both qualitative and quantitative evaluations, significantly improving the LPIPS score by 30.5% and the CSD metric by 18.1%. We believe our method will advance future research and applications. Code and benchmark at https://github.com/sherlhw/AIComposer.
- Abstract(参考訳): 画像合成は、大規模事前訓練されたT2I拡散モデルで大幅に進歩した。
同じドメイン構成の進歩にもかかわらず、クロスドメイン構成は未探索のままである。
主な課題は拡散モデルの確率的性質と入力画像間のスタイルギャップであり、失敗や成果物につながる。
さらに、テキストへの依存度が高いと、実用的な応用が制限される。
本稿では,テキストプロンプトを必要とせず,自然なスタイリゼーションとシームレスな合成が可能な,最初のクロスドメイン画像合成手法を提案する。
本手法は,後方反転と前方復調のための小さなステップをディフューザを訓練することなく行うため,より効率的で頑健である。
また,本手法では単純な多層パーセプトロンネットワークを用いて,CLIP機能を前景と背景から統合し,局所的横断的戦略で拡散を操作する。
プリスタイライズネットワークを使わずに安定したスタイリゼーションを実現しつつ、フォアグラウンドコンテンツを効果的に保存する。
最後に,ドメイン間画像合成のためのテストデータセットの欠如に対処するため,さまざまな内容やスタイルのベンチマークデータセットを作成し,公平な評価を行う。
本手法は,定性評価と定量評価の両方において最先端技術より優れ,LPIPSのスコアが30.5%,CSDのスコアが18.1%向上した。
我々の手法は将来の研究と応用を前進させるだろう。
https://github.com/sherlhw/AIComposer.comのコードとベンチマーク。
関連論文リスト
- Learning Deblurring Texture Prior from Unpaired Data with Diffusion Model [92.61216319417208]
画像の劣化に対する新しい拡散モデル(DM)に基づくフレームワークを提案する。
我々の研究は、ぼやけた画像のテクスチャを回復するのに役立つ事前知識を生成するために、DMを実行する。
生成したテクスチャをフル活用するために,テクスチャ転送変換層(TTformer)を提案する。
論文 参考訳(メタデータ) (2025-07-18T01:50:31Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z) - PerceptionGAN: Real-world Image Construction from Provided Text through
Perceptual Understanding [11.985768957782641]
本稿では,識別器モジュールに知覚的理解を取り入れ,優れた画像を提供する手法を提案する。
複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。
さらに重要なことに、提案手法は他の最先端のテキストベース画像生成モデルのパイプラインに統合することができる。
論文 参考訳(メタデータ) (2020-07-02T09:23:08Z) - Combining Deep Learning with Geometric Features for Image based
Localization in the Gastrointestinal Tract [8.510792628268824]
そこで本研究では,Deep Learning法と従来の特徴量に基づく手法を併用して,小さなトレーニングデータを用いたより優れたローカライゼーションを実現する手法を提案する。
本手法は, セグメンテッドトレーニング画像セットにおいて, 最寄りのゾーンに数発の分類を行うために, シームズネットワーク構造を導入することにより, 両世界の長所をフル活用する。
精度は28.94% (Position) と10.97% (Orientation) で改善されている。
論文 参考訳(メタデータ) (2020-05-11T23:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。