論文の概要: CoCoDiff: Correspondence-Consistent Diffusion Model for Fine-grained Style Transfer
- arxiv url: http://arxiv.org/abs/2602.14464v1
- Date: Mon, 16 Feb 2026 04:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.148234
- Title: CoCoDiff: Correspondence-Consistent Diffusion Model for Fine-grained Style Transfer
- Title(参考訳): CoCoDiff:微粒なスタイル伝達のための対応型拡散モデル
- Authors: Wenbo Nie, Zixiang Li, Renshuai Tao, Bin Wu, Yunchao Wei, Yao Zhao,
- Abstract要約: CoCoDiffは、コンピュータビジョンのためのトレーニング不要で低コストなスタイル転送フレームワークである。
事前訓練された潜在拡散モデルを利用して、細粒度でセマンティックに一貫したスタイリングを実現する。
CoCoDiffは最先端のビジュアル品質と強力な定量的結果を提供し、追加のトレーニングやアノテーションに依存する方法よりも優れています。
- 参考スコア(独自算出の注目度): 85.217605146499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferring visual style between images while preserving semantic correspondence between similar objects remains a central challenge in computer vision. While existing methods have made great strides, most of them operate at global level but overlook region-wise and even pixel-wise semantic correspondence. To address this, we propose CoCoDiff, a novel training-free and low-cost style transfer framework that leverages pretrained latent diffusion models to achieve fine-grained, semantically consistent stylization. We identify that correspondence cues within generative diffusion models are under-explored and that content consistency across semantically matched regions is often neglected. CoCoDiff introduces a pixel-wise semantic correspondence module that mines intermediate diffusion features to construct a dense alignment map between content and style images. Furthermore, a cycle-consistency module then enforces structural and perceptual alignment across iterations, yielding object and region level stylization that preserves geometry and detail. Despite requiring no additional training or supervision, CoCoDiff delivers state-of-the-art visual quality and strong quantitative results, outperforming methods that rely on extra training or annotations.
- Abstract(参考訳): 類似したオブジェクト間の意味的対応を維持しながら、画像間で視覚的スタイルを伝達することは、コンピュータビジョンにおける中心的な課題である。
既存の手法は大きな進歩を遂げているが、大半はグローバルレベルで運用されているが、領域的にもピクセル的にもセマンティックな対応も見過ごされている。
そこで本研究では,事前学習した潜在拡散モデルを利用して,微粒でセマンティックに整合性のあるスタイリングを実現する,新しいトレーニングフリーで低コストなスタイル転送フレームワークCoCoDiffを提案する。
生成拡散モデルにおける対応手法は未探索であり,意味的に一致した領域間でのコンテンツ一貫性は無視されることが多い。
CoCoDiffは、中間拡散特徴をマイニングし、コンテンツとスタイルイメージ間の密集したアライメントマップを構築するピクセルワイズセマンティック対応モジュールを導入した。
さらに、サイクル整合性モジュールは、反復を通して構造的および知覚的アライメントを強制し、幾何学と詳細を保存するオブジェクトと領域レベルのスタイリングをもたらす。
追加のトレーニングや監督は必要ないが、CoCoDiffは最先端のビジュアル品質と強力な定量的結果を提供し、追加のトレーニングやアノテーションに依存する方法よりも優れている。
関連論文リスト
- Neural Scene Designer: Self-Styled Semantic Image Manipulation [67.43125248646653]
我々は,ユーザが指定したシーン領域のリアルな写真操作を可能にする新しいフレームワークであるNeural Scene Designer (NSD)を紹介した。
NSDは、ユーザ意図とのセマンティックアライメントと、周辺環境とのスタイリスティックな整合性の両方を保証する。
細かなスタイル表現を捉えるために,プログレッシブ・セルフスタイル表現学習(PSRL)モジュールを提案する。
論文 参考訳(メタデータ) (2025-09-01T11:59:03Z) - CorrMoE: Mixture of Experts with De-stylization Learning for Cross-Scene and Cross-Domain Correspondence Pruning [30.111296778234124]
CorrMoEは、クロスドメインとクロスシーンのバリエーションの下で堅牢性を高める通信プルーニングフレームワークである。
シーンの多様性のために,多視点機能を適応的に統合するBi-Fusion Mixture of Expertsモジュールを設計する。
ベンチマークデータセットの実験では、CorrMoEは最先端の手法に比べて精度と一般化が優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-16T01:44:01Z) - ShapeShift: Towards Text-to-Shape Arrangement Synthesis with Content-Aware Geometric Constraints [13.2441524021269]
ShapeShiftはテキスト誘導による画像から画像への変換タスクであり、入力された剛体形状の集合を重複しない構成に再構成する必要がある。
重複が発生した場合に,最小限の意味的コヒーレントな調整を施す,コンテンツ対応の衝突解決機構を導入する。
本手法は,空間的関係がテキストのプロンプトをはっきりと具現化した解釈可能な構成を与える。
論文 参考訳(メタデータ) (2025-03-18T20:48:58Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Bending Graphs: Hierarchical Shape Matching using Gated Optimal
Transport [80.64516377977183]
形状マッチングは、コンピュータグラフィックスと視覚のコミュニティにとって長い間研究されてきた問題である。
局所的なパッチレベル情報とグローバルな形状レベルの構造を組み込んだ階層型学習設計について検討する。
本研究では,非信頼ノード上の特徴を逐次更新し,形状間の一貫した一致を学習することで,新しい最適輸送解法を提案する。
論文 参考訳(メタデータ) (2022-02-03T11:41:46Z) - Consistent Style Transfer [23.193302706359464]
近年,微粒化を実現するため,注意型任意のスタイル転送手法が提案されている。
この問題を軽減するために, プログレッシブ・アテンショナル・アライメント (PAMA) を提案する。
PAMAは,意味領域の不整合を回避しつつ,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-01-06T20:19:35Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Bi-level Feature Alignment for Versatile Image Translation and
Manipulation [88.5915443957795]
GAN(Generative Adversarial Network)は画像翻訳と操作において大きな成功を収めている。
忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて依然として大きな課題である。
本稿では,高精度なセマンティック・スタイル・ガイダンスを実現する多機能な画像翻訳・操作フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T05:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。