論文の概要: CycleDiff: Cycle Diffusion Models for Unpaired Image-to-image Translation
- arxiv url: http://arxiv.org/abs/2508.06625v1
- Date: Fri, 08 Aug 2025 18:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.478178
- Title: CycleDiff: Cycle Diffusion Models for Unpaired Image-to-image Translation
- Title(参考訳): CycleDiff: 画像-画像間翻訳のためのサイクル拡散モデル
- Authors: Shilong Zou, Yuhang Huang, Renjiao Yi, Chenyang Zhu, Kai Xu,
- Abstract要約: ペアトレーニングデータがない場合に拡散型クロスドメイン画像トランスレータを導入する。
拡散と翻訳過程を整合させる新しい共同学習フレームワークを提案する。
提案手法は,両プロセスのグローバルな最適化,最適性の向上,忠実度の向上,構造整合性の実現を可能にする。
- 参考スコア(独自算出の注目度): 13.495259208378524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a diffusion-based cross-domain image translator in the absence of paired training data. Unlike GAN-based methods, our approach integrates diffusion models to learn the image translation process, allowing for more coverable modeling of the data distribution and performance improvement of the cross-domain translation. However, incorporating the translation process within the diffusion process is still challenging since the two processes are not aligned exactly, i.e., the diffusion process is applied to the noisy signal while the translation process is conducted on the clean signal. As a result, recent diffusion-based studies employ separate training or shallow integration to learn the two processes, yet this may cause the local minimal of the translation optimization, constraining the effectiveness of diffusion models. To address the problem, we propose a novel joint learning framework that aligns the diffusion and the translation process, thereby improving the global optimality. Specifically, we propose to extract the image components with diffusion models to represent the clean signal and employ the translation process with the image components, enabling an end-to-end joint learning manner. On the other hand, we introduce a time-dependent translation network to learn the complex translation mapping, resulting in effective translation learning and significant performance improvement. Benefiting from the design of joint learning, our method enables global optimization of both processes, enhancing the optimality and achieving improved fidelity and structural consistency. We have conducted extensive experiments on RGB$\leftrightarrow$RGB and diverse cross-modality translation tasks including RGB$\leftrightarrow$Edge, RGB$\leftrightarrow$Semantics and RGB$\leftrightarrow$Depth, showcasing better generative performances than the state of the arts.
- Abstract(参考訳): ペアトレーニングデータがない場合に拡散型クロスドメイン画像トランスレータを導入する。
GAN法と異なり,提案手法は拡散モデルを統合して画像翻訳過程を学習し,データ分布のより包括的モデリングとクロスドメイン翻訳の性能向上を実現する。
しかし、拡散過程に翻訳過程を組み込むことは、2つの過程が正確に整列していないため依然として困難であり、すなわち、翻訳過程がクリーン信号上で実行される間、ノイズ信号に拡散過程を適用する。
その結果、拡散に基づく最近の研究では2つの過程を学習するために個別のトレーニングや浅い積分が採用されているが、これは変換最適化の局所的な最小化を招き、拡散モデルの有効性を制約する可能性がある。
この問題に対処するために,拡散と翻訳プロセスの整合を図り,グローバルな最適性を向上する新しい共同学習フレームワークを提案する。
具体的には, 画像成分を拡散モデルで抽出し, クリーン信号を表現し, 画像成分を用いた翻訳プロセスを用いて, エンドツーエンドのジョイント学習を実現することを提案する。
一方、複雑な翻訳マッピングを学習するための時間依存翻訳ネットワークを導入し、効果的な翻訳学習と大幅な性能向上を実現した。
共同学習の設計により,両プロセスのグローバルな最適化が可能となり,最適性を向上し,忠実度と構造的整合性の向上を実現した。
我々は、RGB$\leftrightarrow$RGB、RGB$\leftrightarrow$Edge、RGB$\leftrightarrow$Semantics、RGB$\leftrightarrow$Depthといった多種多様なモダリティ翻訳タスクについて広範な実験を行い、最先端技術よりも優れた生成性能を示す。
関連論文リスト
- Learning Latent Representations for Image Translation using Frequency Distributed CycleGAN [7.610968152027164]
Fd-CycleGANはイメージ・ツー・イメージ(I2I)翻訳フレームワークであり、遅延表現学習を強化して実データ分布を近似する。
Horse2Zebra、Monet2Photo、および合成強化されたStrike-offデータセットなど、さまざまなデータセットに関する実験を行います。
その結果,周波数誘導型潜時学習は画像翻訳タスクの一般化を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-05T12:59:37Z) - Image-to-Image Translation with Diffusion Transformers and CLIP-Based Image Conditioning [2.9603070411207644]
Diffusion Transformers (DiT) は画像から画像への変換のための拡散ベースのフレームワークである。
DiTは拡散モデルのデノナイジング能力と変換器のグローバルなモデリング能力を組み合わせる。
実際の顔を漫画風のイラストに翻訳する face2comics と、エッジマップをリアルなシューズイメージに変換する edges2shoe の2つのベンチマークデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-05-21T20:37:33Z) - A Diffusion Model Translator for Efficient Image-to-Image Translation [60.86381807306705]
本稿では,拡散モデルトランスレータ (DMT) と呼ばれる,軽量トランスレータを用いた拡散モデルを効率よく実装する手法を提案する。
我々は、画像スタイリング、画像のカラー化、画像へのセグメント化、画像へのスケッチなど、さまざまなI2Iアプリケーションに対するアプローチを評価し、その有効性と汎用性を検証した。
論文 参考訳(メタデータ) (2025-02-01T04:01:24Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - MIDMs: Matching Interleaved Diffusion Models for Exemplar-based Image
Translation [29.03892463588357]
マッチング型インターリーブド拡散モデル (MIDM) と呼ばれる, 画像翻訳のための新しい手法を提案する。
拡散に基づくマッチング・アンド・ジェネレーション・フレームワークを定式化し、ドメイン間マッチングと拡散ステップを潜時空間でインターリーブする。
拡散過程の信頼性を向上させるため,サイクル整合性を用いた信頼度対応プロセスの設計を行い,信頼度の高い領域のみを考える。
論文 参考訳(メタデータ) (2022-09-22T14:43:52Z) - BBDM: Image-to-image Translation with Brownian Bridge Diffusion Models [50.39417112077254]
BBDM(Brownian Bridge Diffusion Model)に基づく画像から画像への変換手法を提案する。
我々の知る限りでは、画像から画像への変換のためのブラウン橋拡散プロセスを提案する最初の作品である。
論文 参考訳(メタデータ) (2022-05-16T13:47:02Z) - Smoothing the Disentangled Latent Style Space for Unsupervised
Image-to-Image Translation [56.55178339375146]
イメージ・ツー・イメージ(I2I)マルチドメイン翻訳モデルは通常、セマンティックな結果の品質を用いて評価される。
本稿では,翻訳ネットワークがスムーズでゆがみのあるラテントスタイル空間を学習するのに役立つ,3つの特定の損失に基づく新たなトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-16T17:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。