論文の概要: CHIMERA: Adaptive Cache Injection and Semantic Anchor Prompting for Zero-shot Image Morphing with Morphing-oriented Metrics
- arxiv url: http://arxiv.org/abs/2512.07155v3
- Date: Mon, 15 Dec 2025 08:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.123132
- Title: CHIMERA: Adaptive Cache Injection and Semantic Anchor Prompting for Zero-shot Image Morphing with Morphing-oriented Metrics
- Title(参考訳): CHIMERA:Zero-shot Image Morphing with Morphing-oriented Metricsのための適応キャッシュインジェクションとセマンティックアンカープロンプト
- Authors: Dahyeon Kye, Jeahun Sung, Mingyu Jeon, Jihyong Oh,
- Abstract要約: 拡散モデルは顕著な生成能力を示すが、スムーズでセマンティックに一貫した画像モーフィングを実現することは依然として困難である。
キャッシュインバージョン誘導デノナイズプロセスとしてモーフィングを定式化する,ゼロショット拡散に基づくフレームワークCHIMERAを提案する。
- 参考スコア(独自算出の注目度): 6.173104732054219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models exhibit remarkable generative ability, yet achieving smooth and semantically consistent image morphing remains a challenge. Existing approaches often yield abrupt transitions or over-saturated appearances due to the lack of adaptive structural and semantic alignments. We propose CHIMERA, a zero-shot diffusion-based framework that formulates morphing as a cached inversion-guided denoising process. To handle large semantic and appearance disparities, we propose Adaptive Cache Injection and Semantic Anchor Prompting. Adaptive Cache Injection (ACI) caches down, mid, and up blocks features from both inputs during DDIM inversion and re-injects them adaptively during denoising, enabling spatial and semantic alignment in depth- and time-adaptive manners and enabling natural feature fusion and smooth transitions. Semantic Anchor Prompting (SAP) leverages a vision-language model to generate a shared anchor prompt that serves as a semantic anchor, bridging dissimilar inputs and guiding the denoising process toward coherent results. Finally, we introduce the Global-Local Consistency Score (GLCS), a morphing-oriented metric that simultaneously evaluates the global harmonization of the two inputs and the smoothness of the local morphing transition. Extensive experiments and user studies show that CHIMERA achieves smoother and more semantically aligned transitions than existing methods, establishing a new state of the art in image morphing. The code and project page will be publicly released.
- Abstract(参考訳): 拡散モデルは顕著な生成能力を示すが、スムーズでセマンティックに一貫した画像モーフィングを実現することは依然として困難である。
既存のアプローチは、適応的な構造的アライメントや意味的なアライメントが欠如しているため、急激な遷移や過飽和な外観をもたらすことが多い。
キャッシュインバージョン誘導デノナイズプロセスとしてモーフィングを定式化する,ゼロショット拡散に基づくフレームワークCHIMERAを提案する。
意味と外観の相違に対処するため,Adaptive Cache Injection と Semantic Anchor Prompting を提案する。
アダプティブキャッシュインジェクション(ACI)はDDIMのインバージョン中に両方のインプットから機能をキャッシュし、デノナイズ時に再インジェクションし、奥行きや時間順応的な方法で空間的および意味的なアライメントを可能にし、自然な機能融合とスムーズな遷移を可能にする。
Semantic Anchor Prompting (SAP)は、視覚言語モデルを利用して、セマンティックアンカーとして機能する共有アンカープロンプトを生成する。
最後に、2つの入力のグローバル調和と局所的なモーフィング遷移の滑らかさを同時に評価するモーフィング指向メトリックであるGlobal-Local Consistency Score(GLCS)を紹介する。
大規模な実験とユーザスタディにより、CHIMERAは既存の方法よりもスムーズで意味的に整合した遷移を達成し、画像モーフィングの新たな最先端を確立した。
コードとプロジェクトページが公開される。
関連論文リスト
- FLOWING: Implicit Neural Flows for Structure-Preserving Morphing [5.498230316788923]
FLOWing (FLOW morphing) は、微分ベクトルフローの構成としてワープをリキャストするフレームワークである。
FLOWINGは, より高速な収束により, 最先端の変形品質が得られることを示す。
論文 参考訳(メタデータ) (2025-10-10T16:50:23Z) - LUMA: Low-Dimension Unified Motion Alignment with Dual-Path Anchoring for Text-to-Motion Diffusion Model [18.564067196226436]
本稿では,2経路アンカーを組み込んだテキスト・ツー・モーション拡散モデルを提案し,セマンティックアライメントを強化する。
FIDスコアはそれぞれ0.035と0.123である。
論文 参考訳(メタデータ) (2025-09-29T17:58:28Z) - From Prompt to Progression: Taming Video Diffusion Models for Seamless Attribute Transition [57.809291244375345]
本研究では,スムーズかつ一貫した属性遷移に対する既存モデルの拡張をシンプルかつ効果的に行う手法を提案する。
提案手法は,初期属性フレームから最終属性フレームへの段階的なシフトをフレーム単位に導くことで,各雑音の遅延に対してデータ固有の遷移方向を構築する。
また、属性と動きのダイナミクスを統合した制御属性遷移ベンチマーク(CAT-Bench)を提案する。
論文 参考訳(メタデータ) (2025-09-24T01:58:22Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Appearance Matching Adapter for Exemplar-based Semantic Image Synthesis in-the-Wild [29.23745176017559]
例題ベースセマンティック画像合成は、例題の外観を保ちながら意味内容と整合した画像を生成する。
最近のチューニングフリーアプローチでは、暗黙のクロスイメージマッチングを通じて局所的な外観を転送することでこの問題に対処している。
そこで本稿では,AM-Adapterを用いて,先進的なセマンティック画像合成手法を提案する。
論文 参考訳(メタデータ) (2024-12-04T09:17:47Z) - Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis [19.109259539368]
本稿では,大規模視覚言語モデルの言語理解能力を活用して,初期雑音ラテントの最適化を導くことを提案する。
本研究では,ノイズ拡散プロセスを導入し,雑音を更新し,分布の整合性を保ちながら意味的に忠実な画像を生成する。
実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。
論文 参考訳(メタデータ) (2024-11-25T15:40:47Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。