論文の概要: Chameleon: Style-Content Disentangled Framework for Cross-Domain Object Compositing
- arxiv url: http://arxiv.org/abs/2606.01079v1
- Date: Sun, 31 May 2026 07:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 00:57:58.942002
- Title: Chameleon: Style-Content Disentangled Framework for Cross-Domain Object Compositing
- Title(参考訳): Chameleon: クロスドメインオブジェクトコンポジションのためのスタイルコンテント分散フレームワーク
- Authors: Sukhun Ko, Soo Ye Kim, Jihyong Oh,
- Abstract要約: クロスドメイン・コンポジションは比較的過小評価され、いまだに困難である。
既存のアプローチは、トレーニング不要のブレンディングと改善戦略に大きく依存している。
新たな2段階トレーニングベースのクロスドメイン合成フレームワークであるChameleonを提案する。
- 参考スコア(独自算出の注目度): 14.170738532380712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image compositing aims to seamlessly insert a foreground object into a background image, and recent advances in diffusion models have significantly enhanced the quality, especially when the foreground and background images come from the same domain (e.g., natural images). However, cross-domain compositing, where the foreground and background come from different domains, is relatively underexplored and remains challenging because the model must preserve the foreground object's identity while stylizing it to match the background domain. Existing cross-domain compositing approaches largely rely on training-free blending and refinement strategies. This is partly due to the lack of large-scale paired datasets for cross-domain compositing, limiting the development of training-based solutions. As a result, they are limited to tone-level alignment and often produce style-inconsistent or overstylized results. To overcome such limitations, we construct ChameleonDataset, the first large-scale training dataset for cross-domain compositing, with a comprehensive evaluation benchmark, built through a scalable data construction pipeline. Building on this, we propose Chameleon, a novel two-stage training-based cross-domain compositing framework. In the first stage, we propose Joint Hard Contrastive Learning (JHCL) to train ChameleonEncoder, which effectively disentangles style and content representations. In the second stage, we introduce Spatio-Temporal Attention Gating (STAG) into a diffusion transformer for effective stylization, adaptively regulating how style tokens from the first-stage encoder are injected across spatial and temporal dimensions. Our method outperforms state-of-the-art in-domain and cross-domain compositing models, sequential pipelines and commercial models, achieving improvements in both compositional plausibility and stylistic fidelity.
- Abstract(参考訳): 画像合成は背景画像に前景オブジェクトをシームレスに挿入することを目的としており、特に前景画像と背景画像が同じ領域(例えば自然画像)から来ている場合、拡散モデルの最近の進歩により品質が著しく向上している。
しかし、フォアグラウンドと背景が異なるドメインから来ているクロスドメイン合成は、比較的過小評価されており、背景ドメインにマッチするようにスタイル付けしながら、モデルがフォアグラウンドオブジェクトのアイデンティティを保持する必要があるため、依然として困難である。
既存のクロスドメイン合成アプローチは、トレーニング不要のブレンディングと改善戦略に大きく依存している。
これは部分的には、クロスドメイン合成のための大規模なペアデータセットが欠如していることによるものであり、トレーニングベースのソリューションの開発が制限されている。
結果として、それらはトーンレベルのアライメントに制限され、しばしばスタイルに一貫性のない、あるいは過度にスティル化された結果を生み出す。
このような制限を克服するために、私たちは、スケーラブルなデータ構築パイプラインを通じて構築された包括的な評価ベンチマークで、クロスドメイン合成のための最初の大規模トレーニングデータセットであるChameleonDatasetを構築します。
そこで我々は,新しい2段階トレーニングベースのクロスドメイン合成フレームワークChameleonを提案する。
第1段階では、ChameleonEncoderを学習するために、JHCL(Joint Hard Contrastive Learning)を提案する。
第2段階では,空間的および時間的次元にわたって,第1段エンコーダからのスタイルトークンをどのように注入するかを適応的に制御する,効果的なスタイル化のための拡散変換器として,時空間注意ゲーティング(STAG)を導入する。
提案手法は,最先端のドメイン構成モデルとクロスドメイン合成モデル,シーケンシャルパイプライン,商用モデルより優れており,構成的妥当性とスタイリスティックフィディリティの両面で改善されている。
関連論文リスト
- Dual-Foundation Models for Unsupervised Domain Adaptation [2.279449016085348]
セグメンテーションモデルのトレーニングには、現実世界のデータセットにコストがかかる、労働集約的なアノテーションが必要です。
Unsupervised Domain Adaptation (UDA)は、ラベル付き合成データ上でモデルをトレーニングし、ラベルなしの実画像に適用することによって、この問題に対処する。
本稿では,2つの相補的基礎モデルを利用する二重境界 UDA フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-05T04:52:08Z) - Bézier Meets Diffusion: Robust Generation Across Domains for Medical Image Segmentation [18.618250617122392]
異なる医用画像モダリティにわたる堅牢な学習アルゴリズムのトレーニングは、大きなドメインギャップのために困難である。
教師なしドメイン適応(UDA)は、ソースドメインからの注釈付きイメージとターゲットドメインからのラベルなしイメージを使用して、ディープモデルをトレーニングすることでこの問題を軽減する。
既存のアプローチは、しばしばGANベースのスタイル転送に依存しているが、これらの手法は、高い可変性を持つ領域におけるクロスドメインマッピングの取得に苦慮している。
論文 参考訳(メタデータ) (2025-09-26T15:23:17Z) - AIComposer: Any Style and Content Image Composition via Feature Integration [3.227277661633987]
クロスドメイン画像の構成は未調査のままである。
本手法はテキストプロンプトを必要としないため,自然なスタイル化とシームレスな構成が可能である。
本手法は,定性評価と定量的評価の両方において最先端技術より優れている。
論文 参考訳(メタデータ) (2025-07-28T11:19:14Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph Transformers [48.74331852418905]
直接画像からグラフへの変換は、1つのモデルで物体の検出と関係予測を解くことを伴う課題である。
このタスクの複雑さのため、多くのドメインで大規模なトレーニングデータセットはまれであり、ディープラーニングメソッドのトレーニングを困難にしている。
画像-グラフ変換器のクロスドメインおよびクロス次元学習を可能にする一連の手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Generalized One-shot Domain Adaption of Generative Adversarial Networks [72.84435077616135]
GAN(Generative Adversarial Network)の適応は、事前訓練されたGANを、限られたトレーニングデータを持つ特定のドメインに転送することを目的としている。
我々は、ソースドメインからターゲットドメインへの適応を、テクスチャや色といったグローバルなスタイルの移行と、ソースドメインに属さない新しいエンティティの出現の2つの部分に分離できると考えている。
我々の中核的な目的は、参照と合成の内部分布のギャップをワッサーシュタイン距離によって制限することである。
論文 参考訳(メタデータ) (2022-09-08T09:24:44Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Few Shot Generative Model Adaption via Relaxed Spatial Structural
Alignment [130.84010267004803]
限られたデータでGAN(Generative Adversarial Network)を訓練することは難しい課題である。
実現可能な解決策は、大規模なソースドメインで十分に訓練されたGANから始め、ターゲットドメインにいくつかのサンプルで適応することである。
本研究では,適応時の対象生成モデルのキャリブレーションを行うための緩和された空間構造アライメント手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T14:26:25Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Image-to-image Mapping with Many Domains by Sparse Attribute Transfer [71.28847881318013]
教師なし画像と画像の変換は、2つの領域間の一対のマッピングを、ポイント間の既知のペアワイズ対応なしで学習することで構成される。
現在の慣例は、サイクル一貫性のあるGANでこのタスクにアプローチすることです。
そこで本研究では,ジェネレータを直接,潜在層における単純なスパース変換に制限する代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-23T19:52:23Z) - Introducing Pose Consistency and Warp-Alignment for Self-Supervised 6D
Object Pose Estimation in Color Images [38.9238085806793]
オブジェクトの6Dポーズを推定する最も成功したアプローチは、現実世界の画像で注釈付きのポーズで学習を監督することによって、ニューラルネットワークを訓練する。
既存のニューラルネットワークベースのアプローチの上に適用可能な2段階の6Dオブジェクトポーズ推定フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-27T11:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。