論文の概要: OT-ALD: Aligning Latent Distributions with Optimal Transport for Accelerated Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2511.11162v1
- Date: Fri, 14 Nov 2025 10:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.54545
- Title: OT-ALD: Aligning Latent Distributions with Optimal Transport for Accelerated Image-to-Image Translation
- Title(参考訳): OT-ALD: 高速画像-画像変換のための最適輸送を用いた遅延分布の調整
- Authors: Zhanpeng Wang, Shuting Cao, Yuhang Lu, Yuhan Li, Na Lei, Zhongxuan Luo,
- Abstract要約: DDIB (Dual Diffusion Implicit Bridge) は、強力な柔軟性を保ちながらサイクルの一貫性を保ちながら画像から画像への変換を行う手法である。
最適輸送理論に基づく新しいI2I翻訳フレームワークOT-ALDを提案する。
OT-ALDはサンプリング効率を20.29%向上し,FIDスコアを平均2.6削減することを示した。
- 参考スコア(独自算出の注目度): 23.752936213193376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Dual Diffusion Implicit Bridge (DDIB) is an emerging image-to-image (I2I) translation method that preserves cycle consistency while achieving strong flexibility. It links two independently trained diffusion models (DMs) in the source and target domains by first adding noise to a source image to obtain a latent code, then denoising it in the target domain to generate the translated image. However, this method faces two key challenges: (1) low translation efficiency, and (2) translation trajectory deviations caused by mismatched latent distributions. To address these issues, we propose a novel I2I translation framework, OT-ALD, grounded in optimal transport (OT) theory, which retains the strengths of DDIB-based approach. Specifically, we compute an OT map from the latent distribution of the source domain to that of the target domain, and use the mapped distribution as the starting point for the reverse diffusion process in the target domain. Our error analysis confirms that OT-ALD eliminates latent distribution mismatches. Moreover, OT-ALD effectively balances faster image translation with improved image quality. Experiments on four translation tasks across three high-resolution datasets show that OT-ALD improves sampling efficiency by 20.29% and reduces the FID score by 2.6 on average compared to the top-performing baseline models.
- Abstract(参考訳): DDIB (Dual Diffusion Implicit Bridge) は、画像から画像への変換(I2I)であり、高い柔軟性を保ちながらサイクルの整合性を維持する。
ソース領域とターゲット領域の2つの独立に訓練された拡散モデル(DM)を、まずソース画像にノイズを加えて遅延コードを得る。
しかし,本手法では,(1)低翻訳効率,(2)不一致潜時分布による翻訳軌道偏差の2つの課題に直面している。
これらの問題に対処するために, DDIB に基づくアプローチの強みを保ちながら, 最適な輸送(OT)理論に基づく新しい I2I 翻訳フレームワーク OT-ALD を提案する。
具体的には、ソース領域の潜在分布から対象領域の潜在分布までのOTマップを計算し、対象領域の逆拡散過程の開始点としてマップされた分布を用いる。
エラー解析により,OT-ALDが潜時分布ミスマッチを除去することを確認した。
さらに、OT-ALDは高速な画像翻訳と画質向上のバランスをとる。
3つの高解像度データセットにわたる4つの翻訳タスクの実験では、OT-ALDはサンプリング効率を20.29%改善し、FIDスコアを平均2.6削減している。
関連論文リスト
- A Diffusion Model Translator for Efficient Image-to-Image Translation [60.86381807306705]
本稿では,拡散モデルトランスレータ (DMT) と呼ばれる,軽量トランスレータを用いた拡散モデルを効率よく実装する手法を提案する。
我々は、画像スタイリング、画像のカラー化、画像へのセグメント化、画像へのスケッチなど、さまざまなI2Iアプリケーションに対するアプローチを評価し、その有効性と汎用性を検証した。
論文 参考訳(メタデータ) (2025-02-01T04:01:24Z) - Rethinking Score Distillation as a Bridge Between Image Distributions [97.27476302077545]
提案手法は, 劣化した画像(ソース)を自然画像分布(ターゲット)に転送することを目的としている。
本手法は,複数の領域にまたがって容易に適用可能であり,特殊な手法の性能のマッチングや評価を行うことができる。
テキストから2D、テキストベースのNeRF最適化、絵画を実画像に変換すること、光学錯視生成、および3Dスケッチから実画像に変換することにおいて、その実用性を実証する。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - BBDM: Image-to-image Translation with Brownian Bridge Diffusion Models [50.39417112077254]
BBDM(Brownian Bridge Diffusion Model)に基づく画像から画像への変換手法を提案する。
我々の知る限りでは、画像から画像への変換のためのブラウン橋拡散プロセスを提案する最初の作品である。
論文 参考訳(メタデータ) (2022-05-16T13:47:02Z) - Dual Diffusion Implicit Bridges for Image-to-Image Translation [104.59371476415566]
画像と画像の共通翻訳法は、ソースドメインとターゲットドメインの両方のデータに対する共同トレーニングに依存している。
本稿では拡散モデルに基づく画像変換法であるDual Diffusion Implicit Bridges (DDIBs)を提案する。
DDIBは任意のソースターゲットドメイン間の変換を可能にし、それぞれのドメイン上で独立に訓練された拡散モデルを与える。
論文 参考訳(メタデータ) (2022-03-16T04:10:45Z) - Beyond Deterministic Translation for Unsupervised Domain Adaptation [19.358300726820943]
本研究では、教師なしドメイン適応(UDA)におけるソースとターゲットドメイン間の1対1マッピング('翻訳')の共通アプローチに挑戦する。
代わりに、ソースとターゲットドメイン間の固有の曖昧さをキャプチャするために、翻訳に依存しています。
近年の強いベースラインに対する改善を報告し、2つの挑戦的なセマンティックセグメンテーションベンチマークで最先端のUDA結果を得た。
論文 参考訳(メタデータ) (2022-02-15T23:03:33Z) - GAIT: Gradient Adjusted Unsupervised Image-to-Image Translation [5.076419064097734]
対向損失を利用して、翻訳された画像セットと対象画像セットの分布を一致させる。
これにより、2つの領域が例えば一様領域において異なる辺分布を持つようなアーティファクトが生成される。
本稿では,翻訳後の一様領域を保存する教師なしIITを提案する。
論文 参考訳(メタデータ) (2020-09-02T08:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。