論文の概要: Preserve Anything: Controllable Image Synthesis with Object Preservation
- arxiv url: http://arxiv.org/abs/2506.22531v1
- Date: Fri, 27 Jun 2025 14:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.453537
- Title: Preserve Anything: Controllable Image Synthesis with Object Preservation
- Title(参考訳): 保存物:オブジェクト保存による制御可能な画像合成
- Authors: Prasen Kumar Sharma, Neeraj Matiyali, Siddharth Srivastava, Gaurav Sharma,
- Abstract要約: textitPreserve Anythingは、制御された画像合成のための新しい方法である。
i)オブジェクトの保存とサイズと配置、色と詳細の保持、およびアーティファクトの除去を統合する。
最先端のパフォーマンスを実現し、特徴空間の忠実性とセマンティックアライメントを大幅に改善する。
- 参考スコア(独自算出の注目度): 21.13266979981097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce \textit{Preserve Anything}, a novel method for controlled image synthesis that addresses key limitations in object preservation and semantic consistency in text-to-image (T2I) generation. Existing approaches often fail (i) to preserve multiple objects with fidelity, (ii) maintain semantic alignment with prompts, or (iii) provide explicit control over scene composition. To overcome these challenges, the proposed method employs an N-channel ControlNet that integrates (i) object preservation with size and placement agnosticism, color and detail retention, and artifact elimination, (ii) high-resolution, semantically consistent backgrounds with accurate shadows, lighting, and prompt adherence, and (iii) explicit user control over background layouts and lighting conditions. Key components of our framework include object preservation and background guidance modules, enforcing lighting consistency and a high-frequency overlay module to retain fine details while mitigating unwanted artifacts. We introduce a benchmark dataset consisting of 240K natural images filtered for aesthetic quality and 18K 3D-rendered synthetic images with metadata such as lighting, camera angles, and object relationships. This dataset addresses the deficiencies of existing benchmarks and allows a complete evaluation. Empirical results demonstrate that our method achieves state-of-the-art performance, significantly improving feature-space fidelity (FID 15.26) and semantic alignment (CLIP-S 32.85) while maintaining competitive aesthetic quality. We also conducted a user study to demonstrate the efficacy of the proposed work on unseen benchmark and observed a remarkable improvement of $\sim25\%$, $\sim19\%$, $\sim13\%$, and $\sim14\%$ in terms of prompt alignment, photorealism, the presence of AI artifacts, and natural aesthetics over existing works.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成におけるオブジェクト保存とセマンティック・一貫性の鍵となる制約に対処する,制御された画像合成のための新しい手法である。
既存のアプローチはしばしば失敗する
(i)複数の物体を忠実に保存すること。
(二)プロンプトとのセマンティックアライメントを維持すること、又は
(三)シーン構成を明示的に制御すること。
これらの課題を克服するために,提案手法はNチャネル制御ネットを用いて統合する。
一 大きさ及び配置の不可知性、色及び詳細保持及び人工物の除去を伴う物保存
(二)厳密で意味論的に整合した背景の正確な影、照明、即効性
三 背景配置及び照明条件の明示的なユーザ制御
私たちのフレームワークの主なコンポーネントは、オブジェクトの保存とバックグラウンドガイダンスモジュール、光の一貫性の強化、不要なアーティファクトを緩和しながら詳細を詳細に保持するための高周波オーバーレイモジュールです。
美的品質のためにフィルタされた240Kの自然画像と、照明、カメラアングル、オブジェクト関係などのメタデータを備えた18Kの3Dレンダリングされた合成画像からなるベンチマークデータセットを提案する。
このデータセットは既存のベンチマークの欠陥に対処し、完全な評価を可能にする。
実験の結果,提案手法は最先端性能を実現し,機能空間の忠実度(FID 15.26)とセマンティックアライメント(CLIP-S 32.85)を向上し,美的品質の競争力を維持した。
また、未確認のベンチマークにおける提案した作業の有効性を実証するために、ユーザスタディを実施し、既存の作業に対する即時アライメント、フォトリアリズム、AIアーティファクトの存在、自然美学といった点において、$\sim25\%$, $\sim19\%$, $\sim13\%$, $\sim14\%$, $\sim14\%$の顕著な改善を観察した。
関連論文リスト
- ComposeAnything: Composite Object Priors for Text-to-Image Generation [72.98469853839246]
ComposeAnythingは、既存のT2Iモデルを再トレーニングすることなく、合成画像生成を改善するための新しいフレームワークである。
提案手法はまずLLMの連鎖推論能力を活用し,テキストから2.5Dのセマンティックレイアウトを生成する。
本モデルでは,テキストを忠実に反映した合成による高品質な画像を生成する。
論文 参考訳(メタデータ) (2025-05-30T00:13:36Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection [59.33188668341604]
3次元物体検出は、自律運転知覚の基本的なタスクとして機能する。
ポイントクラウドデータのための高品質なアノテーションを得るためには、コストがかかる。
本稿では,適応型合成シーンを生成するために,ハードネス対応シーン合成(HASS)手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:23Z) - Enhancing Object Coherence in Layout-to-Image Synthesis [2.3805413240744304]
本稿では,オブジェクトのコヒーレンスを導くために,効果的なグローバルセマンティックフュージョン(GSF)と自己相似特徴拡張モジュールを用いた新しい拡散モデルを提案する。
セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内のセマンティックな関係を定義するための豊富な情報が含まれていると論じる。
物理コヒーレンスを改善するため,各画素の生成プロセスに局所的な物理的コヒーレンス関係を明示的に統合する自己相似コヒーレンスアテンション合成(SCA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-17T13:43:43Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。