論文の概要: Conditional Consistency Guided Image Translation and Enhancement
- arxiv url: http://arxiv.org/abs/2501.01223v1
- Date: Thu, 02 Jan 2025 12:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:40.863024
- Title: Conditional Consistency Guided Image Translation and Enhancement
- Title(参考訳): 条件整合性誘導画像変換と拡張
- Authors: A. V. Subramanyam, Amil Bhagat, Milind Jain,
- Abstract要約: マルチドメイン画像変換のための条件整合モデル(CCM)を提案する。
タスク固有の条件入力を導入し,これらの修正を施す。
CCMを10種類のデータセットで評価し,高品質な翻訳画像の作成の有効性を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Consistency models have emerged as a promising alternative to diffusion models, offering high-quality generative capabilities through single-step sample generation. However, their application to multi-domain image translation tasks, such as cross-modal translation and low-light image enhancement remains largely unexplored. In this paper, we introduce Conditional Consistency Models (CCMs) for multi-domain image translation by incorporating additional conditional inputs. We implement these modifications by introducing task-specific conditional inputs that guide the denoising process, ensuring that the generated outputs retain structural and contextual information from the corresponding input domain. We evaluate CCMs on 10 different datasets demonstrating their effectiveness in producing high-quality translated images across multiple domains. Code is available at https://github.com/amilbhagat/Conditional-Consistency-Models.
- Abstract(参考訳): 一貫性モデルは拡散モデルに代わる有望な代替品として登場し、単一ステップのサンプル生成による高品質な生成機能を提供する。
しかし、クロスモーダル翻訳や低照度画像強調といったマルチドメイン画像翻訳タスクへの応用は、まだ明らかになっていない。
本稿では,複数領域の画像変換のための条件整合性モデル(CCM)を提案する。
本研究では,タスク固有の条件付き入力を導入し,生成した出力が対応する入力領域の構造的・文脈的情報を保持することを保証する。
CCMを10種類のデータセット上で評価し、複数の領域にまたがる高品質な翻訳画像の作成の有効性を実証した。
コードはhttps://github.com/amilbhagat/Conditional-Consistency-Modelsで入手できる。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Variational Bayesian Framework for Advanced Image Generation with
Domain-Related Variables [29.827191184889898]
先進条件生成問題に対する統一ベイズ的枠組みを提案する。
本稿では,複数の画像翻訳および編集作業が可能な変分ベイズ画像翻訳ネットワーク(VBITN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T09:47:23Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z) - Multimodal Image-to-Image Translation via Mutual Information Estimation
and Maximization [16.54980086211836]
マルチモーダル画像画像変換 (Multimodal image-to-image translation, I2IT) は、ソース領域の入力画像が与えられた対象領域内の複数の可能な画像を探索する条件分布を学習することを目的としている。
このような条件分布をモデル化するために、条件生成逆ネットワーク(cGAN)がよく用いられる。
本稿では,cGANにおける潜在コードと出力画像間の相互情報を明示的に推定し,最大化する手法を提案する。
論文 参考訳(メタデータ) (2020-08-08T14:09:23Z) - MCMI: Multi-Cycle Image Translation with Mutual Information Constraints [40.556049046897115]
教師なし画像間翻訳のための相互情報に基づくフレームワークを提案する。
MCMIアプローチでは, 単一サイクル画像翻訳モデルを, 多サイクル翻訳設定で繰り返し使用可能なモジュールとして扱う。
MCMIでトレーニングしたモデルでは,高品質な画像が生成され,セマンティックなマッピングがより学習されることを示す。
論文 参考訳(メタデータ) (2020-07-06T17:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。