論文の概要: CareCom: Generative Image Composition with Calibrated Reference Features
- arxiv url: http://arxiv.org/abs/2511.11060v1
- Date: Fri, 14 Nov 2025 08:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.496226
- Title: CareCom: Generative Image Composition with Calibrated Reference Features
- Title(参考訳): CareCom: キャリブレーションされた参照機能を備えた生成画像合成
- Authors: Jiaxuan Chen, Bo Zhang, Qingdong He, Jinlong Peng, Li Niu,
- Abstract要約: 既存の生成合成モデルをマルチ参照バージョンに拡張する。
前景参照画像のグローバルな特徴とローカルな特徴を校正し、背景情報と互換性を持たせる。
MVImgNetとMureComの実験は、生成モデルは校正された参照特徴から大きな恩恵を受けることができることを示した。
- 参考スコア(独自算出の注目度): 31.360236706905585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image composition aims to seamlessly insert foreground object into background. Despite the huge progress in generative image composition, the existing methods are still struggling with simultaneous detail preservation and foreground pose/view adjustment. To address this issue, we extend the existing generative composition model to multi-reference version, which allows using arbitrary number of foreground reference images. Furthermore, we propose to calibrate the global and local features of foreground reference images to make them compatible with the background information. The calibrated reference features can supplement the original reference features with useful global and local information of proper pose/view. Extensive experiments on MVImgNet and MureCom demonstrate that the generative model can greatly benefit from the calibrated reference features.
- Abstract(参考訳): 画像合成は、前景のオブジェクトをバックグラウンドでシームレスに挿入することを目的としている。
生成的画像合成の進歩にもかかわらず、既存の手法は、細部保存と前景のポーズ/ビュー調整を同時に行うのに苦戦している。
この問題に対処するため、既存の合成合成モデルをマルチ参照バージョンに拡張し、任意の数のフォアグラウンド参照画像を使用することを可能にした。
さらに,前景参照画像のグローバルな特徴と局所的な特徴を校正し,背景情報と互換性を持たせることを提案する。
校正された参照機能は、オリジナルの参照機能を、適切なポーズ/ビューのグローバルおよびローカル情報で補うことができる。
MVImgNetとMureComの大規模な実験は、生成モデルは校正された参照特徴から大きな恩恵を受けることができることを示した。
関連論文リスト
- PosBridge: Multi-View Positional Embedding Transplant for Identity-Aware Image Editing [6.102786823233576]
ローカライズされた被写体駆動画像編集は、ユーザが指定したオブジェクトをシームレスにターゲットシーンに統合することを目的としている。
PosBridgeは、カスタムオブジェクトを挿入するための効率的で柔軟なフレームワークである。
PosBridgeは、構造整合性、外観の忠実さ、計算効率において、主流のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-08-24T11:09:01Z) - RefSTAR: Blind Facial Image Restoration with Reference Selection, Transfer, and Reconstruction [75.00967931348409]
本稿では,参照選択,移動,再構成を考慮した新しいブラインド顔画像復元手法を提案する。
種々のバックボーンモデルによる実験は優れた性能を示し、より優れたアイデンティティ保存能力と参照特徴伝達品質を示す。
論文 参考訳(メタデータ) (2025-07-14T16:50:29Z) - MureObjectStitch: Multi-reference Image Composition [23.110826295932554]
生成画像合成は、背景画像に与えられた前景オブジェクトを再生し、現実的な合成画像を生成することを目的としている。
既存の方法は、前景の細部を保存し、同時に前景のポーズ/視点を調整するのに苦労している。
生成画像合成モデルにおいて,前景オブジェクトを含む1つ以上の画像を用いて事前訓練されたモデルを微調整する,効果的な微調整手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T00:53:20Z) - Segment Anything Model Meets Image Harmonization [13.415810438244788]
合成画像の前景を調整して背景をシームレスに整合させることを目的とした画像合成において,画像調和は重要な技術である。
現在の手法では、グローバルレベルまたはピクセルレベルの特徴マッチングが採用されている。
本研究では,前景と背景特徴の視覚的一貫性学習を導くために,事前学習したセグメンテーションモデル(SAM)によって出力されるセグメンテーションマップを利用する意味誘導型領域認識型インスタンス正規化(SRIN)を提案する。
論文 参考訳(メタデータ) (2023-12-20T02:57:21Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - Reference-based Image Composition with Sketch via Structure-aware
Diffusion Model [38.1193912666578]
本稿では,参照画像とともに,スケッチを新しいモーダルとして組み込んだマルチインプット条件画像合成モデルを提案する。
スケッチを用いたエッジレベル制御により,画像サブパートの編集や編集が可能である。
筆者らのフレームワークは,スケッチ指導を維持しつつ,参照画像を用いて学習済み拡散モデルを微調整し,欠落した領域を完了させる。
論文 参考訳(メタデータ) (2023-03-31T06:12:58Z) - Generalizable Person Re-Identification via Viewpoint Alignment and
Fusion [74.30861504619851]
本研究は,3次元高密度ポーズ推定モデルとテクスチャマッピングモジュールを用いて,歩行者画像を標準視像にマッピングすることを提案する。
テクスチャマッピングモジュールの不完全性のため、標準ビュー画像は、原画像から識別的な詳細手がかりを失う可能性がある。
提案手法は,各種評価設定における既存手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-12-05T16:24:09Z) - Image Harmonization by Matching Regional References [10.249228010611617]
最近の画像調和法は, 一般的にグローバルな背景の出現パターンを要約し, 位置差のないグローバルな前景に適用する。
実際の画像では、異なる領域の外観(照度、色温度、彩度、色調、テクスチャなど)が著しく変化する。
外観を世界中に伝達する従来手法は最適ではない。
論文 参考訳(メタデータ) (2022-04-10T16:23:06Z) - SSH: A Self-Supervised Framework for Image Harmonization [97.16345684998788]
我々は、編集せずに「自由」な自然画像だけで訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。
提案したSSHは,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-15T19:51:33Z) - Reference-guided Face Component Editing [51.29105560090321]
本稿では,多様かつ制御可能な顔コンポーネント編集のためのr-FACE (Reference-guided FAce Component Editing) という新しいフレームワークを提案する。
具体的には、r-FACEは、顔成分の形状を制御する条件として参照画像を利用して、画像の塗装モデルをバックボーンとして利用する。
フレームワークが対象の顔成分に集中するよう促すため、基準画像から抽出した注目特徴と対象の顔成分特徴とを融合させるために、サンプル誘導注意モジュールが設計されている。
論文 参考訳(メタデータ) (2020-06-03T05:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。