論文の概要: Does FLUX Already Know How to Perform Physically Plausible Image Composition?
- arxiv url: http://arxiv.org/abs/2509.21278v1
- Date: Thu, 25 Sep 2025 15:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.012551
- Title: Does FLUX Already Know How to Perform Physically Plausible Image Composition?
- Title(参考訳): FLUXはすでに物理的にプラズブルな画像合成の仕方を知っていますか?
- Authors: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong,
- Abstract要約: ShiNEは、中性化エラーを伴うシームレス、高忠実な挿入のためのトレーニング不要のフレームワークである。
我々は,低照度,強い照明,複雑な影,反射面などの多様な解像度と課題を特徴とするコンプレックスコンプレックスを導入する。
- 参考スコア(独自算出の注目度): 26.848563827256914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image composition aims to seamlessly insert a user-specified object into a new scene, but existing models struggle with complex lighting (e.g., accurate shadows, water reflections) and diverse, high-resolution inputs. Modern text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential physical and resolution priors, yet lack a framework to unleash them without resorting to latent inversion, which often locks object poses into contextually inappropriate orientations, or brittle attention surgery. We propose SHINE, a training-free framework for Seamless, High-fidelity Insertion with Neutralized Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained customization adapters (e.g., IP-Adapter) to guide latents for faithful subject representation while preserving background integrity. Degradation-suppression guidance and adaptive background blending are proposed to further eliminate low-quality outputs and visible seams. To address the lack of rigorous benchmarks, we introduce ComplexCompo, featuring diverse resolutions and challenging conditions such as low lighting, strong illumination, intricate shadows, and reflective surfaces. Experiments on ComplexCompo and DreamEditBench show state-of-the-art performance on standard metrics (e.g., DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward). Code and benchmark will be publicly available upon publication.
- Abstract(参考訳): 画像合成は、ユーザーが指定したオブジェクトをシームレスに新しいシーンに挿入することを目的としているが、既存のモデルは複雑な照明(例えば、正確な影、水の反射)と多様な高解像度入力に悩まされている。
現代のテキストと画像の拡散モデル(例:SD3.5、FLUX)は、既に必須の物理的および解像度の事前情報をエンコードしているが、遅延反転に頼らずにそれらを解き放つためのフレームワークが欠如している。
ニュートラル化エラーを用いたシームレス高忠実度インサーションのためのトレーニングフリーフレームワークであるShineを提案する。
Shineは、事前訓練されたカスタマイズアダプタ(例:IP-Adapter)を活用して、背景の整合性を維持しながら、忠実な主題表現のために潜伏者を誘導する、多様体ステアロスを導入している。
劣化抑制ガイダンスと適応型バックグラウンドブレンディングを提案し,低品質出力と可視シームをさらに排除した。
厳密なベンチマークの欠如に対処するため,多彩な解像度と低照度,強い照度,複雑な影,反射面といった困難な条件を特徴とするコンプレックスコンプレックスを導入する。
ComplexCompoとDreamEditBenchの実験では、標準的なメトリクス(例えば、DINOv2)と人間のアラインメントスコア(例えば、DreamSim、ImageReward、VisionReward)で最先端のパフォーマンスを示している。
コードとベンチマークは公開時に公開される。
関連論文リスト
- SAIGFormer: A Spatially-Adaptive Illumination-Guided Network for Low-Light Image Enhancement [58.79901582809091]
近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。
近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。
正確な照明復元を可能にする空間適応照明誘導変圧器フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:38:56Z) - MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation [19.46962637673285]
MV-CoLightは2Dおよび3Dシーンで合成される照度一貫性のあるオブジェクトのためのフレームワークである。
2次元画像入力と3次元ガウスシーン表現をシームレスに整列するために、ヒルベルト曲線に基づく写像を用いる。
実験では、標準ベンチマークとデータセット間で、最先端の調和した結果を実証した。
論文 参考訳(メタデータ) (2025-05-27T17:53:02Z) - CodeEnhance: A Codebook-Driven Approach for Low-Light Image Enhancement [97.95330185793358]
低照度画像強調(LLIE)は、低照度画像を改善することを目的としている。
既存の手法では、様々な明るさ劣化からの回復の不確実性と、テクスチャと色情報の喪失という2つの課題に直面している。
我々は、量子化された先行値と画像の精細化を利用して、新しいエンハンスメント手法、CodeEnhanceを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:34:39Z) - Towards Image Ambient Lighting Normalization [47.42834070783831]
環境照明正規化(ALN)は、より広い文脈で影間の相互作用を研究し、画像復元と影除去を統一する。
ベンチマークでは、様々な主流手法を選択し、Ambient6K上でそれらを厳格に評価する。
IFBlendは、Ambient6K上でSOTAスコアを達成し、従来のシャドウ除去ベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2024-03-27T16:20:55Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - SCRNet: a Retinex Structure-based Low-light Enhancement Model Guided by
Spatial Consistency [22.54951703413469]
本稿では,SCRNet(Spatial Consistency Retinex Network)と呼ばれる,新しい低照度画像強調モデルを提案する。
提案モデルでは, 空間的整合性の原理に着想を得て, チャネルレベル, セマンティックレベル, テクスチャレベルという3つのレベルの整合性を考慮した。
様々な低照度画像データセットに対する広範囲な評価は、提案したSCRNetが既存の最先端手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-05-14T03:32:19Z) - DiFaReli++: Diffusion Face Relighting with Consistent Cast Shadows [11.566896201650056]
我々は,グローバル照明やキャストシャドウといった課題に対処するため,自然界における単一視点の顔のリライティングに新たなアプローチを導入する。
我々は、1つのネットワークパスだけを必要とする単発リライトフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-19T08:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。