論文の概要: Region-to-Region: Enhancing Generative Image Harmonization with Adaptive Regional Injection
- arxiv url: http://arxiv.org/abs/2508.09746v1
- Date: Wed, 13 Aug 2025 12:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.878488
- Title: Region-to-Region: Enhancing Generative Image Harmonization with Adaptive Regional Injection
- Title(参考訳): 地域間:適応型地域注入による生成的画像調和の強化
- Authors: Zhiqiu Zhang, Dongqi Fan, Mingjie Wang, Qiang Tang, Jian Yang, Zili Yi,
- Abstract要約: 画像調和の目標は、合成画像の前景を調整し、背景との視覚的整合性を実現することである。
近年, 遅延拡散モデル (LDM) が調和化に応用され, 顕著な結果が得られた。
現在の合成データセットは色移動に依存しており、局所的な変化がなく、複雑な現実世界の照明条件を捉えることができない。
- 参考スコア(独自算出の注目度): 17.56045093665567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of image harmonization is to adjust the foreground in a composite image to achieve visual consistency with the background. Recently, latent diffusion model (LDM) are applied for harmonization, achieving remarkable results. However, LDM-based harmonization faces challenges in detail preservation and limited harmonization ability. Additionally, current synthetic datasets rely on color transfer, which lacks local variations and fails to capture complex real-world lighting conditions. To enhance harmonization capabilities, we propose the Region-to-Region transformation. By injecting information from appropriate regions into the foreground, this approach preserves original details while achieving image harmonization or, conversely, generating new composite data. From this perspective, We propose a novel model R2R. Specifically, we design Clear-VAE to preserve high-frequency details in the foreground using Adaptive Filter while eliminating disharmonious elements. To further enhance harmonization, we introduce the Harmony Controller with Mask-aware Adaptive Channel Attention (MACA), which dynamically adjusts the foreground based on the channel importance of both foreground and background regions. To address the limitation of existing datasets, we propose Random Poisson Blending, which transfers color and lighting information from a suitable region to the foreground, thereby generating more diverse and challenging synthetic images. Using this method, we construct a new synthetic dataset, RPHarmony. Experiments demonstrate the superiority of our method over other methods in both quantitative metrics and visual harmony. Moreover, our dataset helps the model generate more realistic images in real examples. Our code, dataset, and model weights have all been released for open access.
- Abstract(参考訳): 画像調和の目標は、合成画像の前景を調整し、背景との視覚的整合性を実現することである。
近年, 遅延拡散モデル (LDM) が調和化に応用され, 顕著な結果が得られた。
しかし, LDMをベースとしたハーモニゼーションは, 細部保存と限られたハーモニゼーション能力の課題に直面している。
さらに、現在の合成データセットは色移動に依存しており、局所的な変化がなく、複雑な現実世界の照明条件を捉えることができない。
調和度を高めるため,地域間変換を提案する。
適切な領域からフォアグラウンドに情報を注入することにより、画像調和を達成しつつ元の詳細を保存したり、逆に新しい合成データを生成する。
この観点から、我々は新しいモデルR2Rを提案する。
具体的には、不調和な要素を排除しつつ、適応フィルタを用いて、前景の高周波の詳細を保存できるようにClear-VAEを設計する。
さらに調和性を高めるために,前景と背景領域の両方のチャネル重要度に基づいて,前景を動的に調整するMask-aware Adaptive Channel Attention (MACA) を用いた Harmony Controller を導入する。
既存のデータセットの制限に対処するため、適切な領域から前景に色と照明情報を転送し、より多彩で困難な合成画像を生成するランダムポアソンブレンディングを提案する。
この手法を用いて,新しい合成データセットRPHarmonyを構築した。
定量的メトリクスと視覚調和の両方において,本手法が他の手法よりも優れていることを示す実験を行った。
さらに、我々のデータセットは、実例でよりリアルな画像を生成するのに役立ちます。
私たちのコード、データセット、モデルウェイトはすべて、オープンアクセスのためにリリースされています。
関連論文リスト
- Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing [92.61216319417208]
そこで本稿では,未確認データにおける有益な知識を十分に活用するための,新しい周波数領域ベース拡散モデルを提案する。
拡散モデル(DM)が示す強い生成能力に着想を得て,周波数領域再構成の観点からデハージング課題に取り組む。
論文 参考訳(メタデータ) (2025-07-02T01:22:46Z) - Deep Image Harmonization with Learnable Augmentation [17.690945824240348]
小型データセットの照明多様性を向上し、調和性能を向上させるため、学習可能な拡張法を提案する。
SycoNetは、フォアグラウンドマスクとランダムベクトルで実画像を取り込んで、適切な色変換を学習し、この実画像のフォアグラウンドに適用して合成合成合成画像を生成する。
論文 参考訳(メタデータ) (2023-08-01T08:40:23Z) - Deep Image Harmonization with Globally Guided Feature Transformation and
Relation Distillation [20.302430505018]
我々は,グローバル情報を用いて前景の特徴変換を導くことで,大幅な改善が期待できることを示した。
また,前景と背景の関係を実画像から合成画像に転送し,変換エンコーダの特徴の中間的管理を行う。
論文 参考訳(メタデータ) (2023-08-01T07:53:25Z) - Hierarchical Dynamic Image Harmonization [15.886047676987316]
本稿では,高効率な画像調和における特徴変換のために,特徴を局所的からグローバル的視点に適応させる階層型動的ネットワーク(HDNet)を提案する。
提案したHDNetは,従来の手法と比較して,モデル全体のパラメータを80%以上削減する。
特に、HDNetはPSNRの4%改善とMSEの19%削減を実現している。
論文 参考訳(メタデータ) (2022-11-16T03:15:19Z) - Image Harmonization with Region-wise Contrastive Learning [51.309905690367835]
本稿では,外部スタイルの融合と領域単位のコントラスト学習方式を備えた新しい画像調和フレームワークを提案する。
提案手法は, 前景と背景の相互情報を最大化することにより, 対応する正と負のサンプルをまとめることを試みる。
論文 参考訳(メタデータ) (2022-05-27T15:46:55Z) - FRIH: Fine-grained Region-aware Image Harmonization [49.420765789360836]
我々は,FRIH(Fentral-Aware Image Harmonization)のための新しいグローバルな2段階フレームワークを提案する。
提案アルゴリズムは,軽量モデルを用いて,iHarmony4データセット(PSNRは38.19dB)上で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-05-13T04:50:26Z) - Interactive Portrait Harmonization [99.15331091722231]
現在の画像調和法は、背景全体を調和のためのガイダンスと見なしている。
背景画像の特定の領域を選択して、調和を導くための新しいフレキシブルなフレームワークが提案されている。
プロのポートレートハーモニゼーション利用者に触発されて、合成フォアグラウンドと選択基準領域の間の色/輝度条件を最適に整合させる新しい輝度マッチング損失も導入する。
論文 参考訳(メタデータ) (2022-03-15T19:30:34Z) - SSH: A Self-Supervised Framework for Image Harmonization [97.16345684998788]
我々は、編集せずに「自由」な自然画像だけで訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。
提案したSSHは,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-15T19:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。