Fugu-MT 論文翻訳(概要): Conditional Score Guidance for Text-Driven Image-to-Image Translation

論文の概要: Conditional Score Guidance for Text-Driven Image-to-Image Translation

arxiv url: http://arxiv.org/abs/2305.18007v1
Date: Mon, 29 May 2023 10:48:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-30 15:30:37.359332
Title: Conditional Score Guidance for Text-Driven Image-to-Image Translation
Title（参考訳）: テキスト駆動画像変換のための条件スコアガイダンス
Authors: Hyunsoo Lee, Minsoo Kang, Bohyung Han
Abstract要約: 本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
参考スコア（独自算出の注目度）: 48.16800710261918
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel algorithm for text-driven image-to-image translation based on a pretrained text-to-image diffusion model. Our method aims to generate a target image by selectively editing the regions of interest in a source image, defined by a modifying text, while preserving the remaining parts. In contrast to existing techniques that solely rely on a target prompt, we introduce a new score function, which considers both a source prompt and a source image, tailored to address specific translation tasks. To this end, we derive the conditional score function in a principled manner, decomposing it into a standard score and a guiding term for target image generation. For the gradient computation, we adopt a Gaussian distribution of the posterior distribution, estimating its mean and variance without requiring additional training. In addition, to enhance the conditional score guidance, we incorporate a simple yet effective mixup method. This method combines two cross-attention maps derived from the source and target latents, promoting the generation of the target image by a desirable fusion of the original parts in the source image and the edited regions aligned with the target prompt. Through comprehensive experiments, we demonstrate that our approach achieves outstanding image-to-image translation performance on various tasks.
Abstract（参考訳）: 本稿では,事前訓練されたテキスト・画像拡散モデルに基づくテキスト駆動画像変換のための新しいアルゴリズムを提案する。本手法は,修正テキストで定義されたソース画像の関心領域を選択的に編集し,残りの部分を保存し,対象画像を生成することを目的とする。対象のプロンプトにのみ依存する既存の手法とは対照的に,特定の翻訳タスクに対処するように調整されたソースプロンプトとソースイメージの両方を考慮した新たなスコア関数を導入する。この目的を達成するために、条件スコア関数を基準スコアと目標画像生成のためのガイド語に分解し、原則的に導出する。勾配計算では、後続分布のガウス分布を採用し、その平均と分散を追加の訓練を必要とせずに推定する。さらに,条件付きスコアガイダンスの強化を目的として,簡易かつ効果的なミックスアップ手法を取り入れた。この方法は、ソースから派生した2つのクロス・アテンション・マップとターゲット・プロンプトとを組み合わせることにより、ソース画像中の元の部分と、ターゲットプロンプトに整列した編集領域との望ましい融合により、ターゲット画像の生成を促進する。総合的な実験により,様々なタスクにおいて優れた画像から画像への翻訳性能を実現することを実証した。

関連論文リスト

Localized Control in Diffusion Models via Latent Vector Prediction [2.4923006485141284]
本稿では,画像のユーザ定義領域を正確に局所的に制御する手法を提案する。本手法は,局所条件を制御した高品質な画像を効果的に合成する。
論文参考訳（メタデータ） (2026-02-02T11:47:48Z)
EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文参考訳（メタデータ） (2025-10-23T05:06:24Z)
Contrastive Learning Guided Latent Diffusion Model for Image-to-Image Translation [7.218556478126324]
拡散モデルはテキスト誘導画像翻訳のための多彩で高品質な画像において優れた性能を示した。 pix2pix-zeroConはゼロショット拡散に基づく手法で、パッチワイドのコントラスト損失を利用して追加のトレーニングを不要にする。我々のアプローチでは、追加のトレーニングは必要とせず、事前訓練されたテキスト-画像拡散モデルで直接動作する。
論文参考訳（メタデータ） (2025-03-26T12:15:25Z)
Diffusion-Based Conditional Image Editing through Optimized Inference with Guidance [46.922018440110826]
本稿では,事前学習されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像翻訳のためのトレーニング不要なアプローチを提案する。本手法は,事前学習した安定拡散モデルと組み合わせることで,様々なタスクにおける画像と画像の翻訳性能を向上する。
論文参考訳（メタデータ） (2024-12-20T11:15:31Z)
ImPoster: Text and Frequency Guidance for Subject Driven Action Personalization using Diffusion Models [55.43801602995778]
提案するImPosterは,「運転」動作を行う「ソース」対象のターゲット画像を生成する新しいアルゴリズムである。私たちのアプローチは完全に教師なしで、キーポイントやポーズといった追加のアノテーションへのアクセスは不要です。
論文参考訳（メタデータ） (2024-09-24T01:25:19Z)
Diffusion based Zero-shot Medical Image-to-Image Translation for Cross Modality Segmentation [18.895926089773177]
クロスモダリティ画像セグメンテーションは、ソースモダリティで設計された手法を用いて、ターゲットモダリティをセグメンテーションすることを目的としている。深層生成モデルは、対象のモダリティ画像をソースモダリティに変換することで、モダリティのセグメンテーションを可能にする。
論文参考訳（メタデータ） (2024-04-01T13:23:04Z)
Improving Diffusion-based Image Translation using Asymmetric Gradient Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2023-06-07T12:56:56Z)
Masked and Adaptive Transformer for Exemplar Based Image Translation [16.93344592811513]
ドメイン間のセマンティックマッチングは難しい。正確なクロスドメイン対応を学習するためのマスク付き適応変換器(MAT)を提案する。品質識別型スタイル表現を得るための新しいコントラスト型スタイル学習法を考案する。
論文参考訳（メタデータ） (2023-03-30T03:21:14Z)
Diffusion-based Image Translation using Disentangled Style and Content Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。逆拡散中、画像の原内容を維持することはしばしば困難である。本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2022-09-30T06:44:37Z)
Blended Diffusion for Text-driven Editing of Natural Images [18.664733153082146]
本稿では,局所的な(地域をベースとした)編集を自然言語で行うための最初のソリューションを提案する。我々は、事前訓練された言語画像モデル(CLIP)を活用し、組み合わせることで、目標を達成する。画像の異なる部分で編集された領域をシームレスに融合させるため、入力画像のノイズバージョンと局所テキスト誘導拡散潜時を空間的にブレンドする。
論文参考訳（メタデータ） (2021-11-29T18:58:49Z)
Global and Local Alignment Networks for Unpaired Image-to-Image Translation [170.08142745705575]
未ペア画像から画像への変換の目的は、対象領域のスタイルを反映した出力画像を作成することである。既存の手法では内容変化に注意が払われていないため、ソース画像からの意味情報は翻訳中の劣化に悩まされる。我々はGLA-Net(Global and Local Alignment Networks)という新しいアプローチを導入する。本手法は既存の手法よりもシャープでリアルな画像を効果的に生成する。
論文参考訳（メタデータ） (2021-11-19T18:01:54Z)
Style Intervention: How to Achieve Spatial Disentanglement with Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文参考訳（メタデータ） (2020-11-19T07:37:31Z)
GAIT: Gradient Adjusted Unsupervised Image-to-Image Translation [5.076419064097734]
対向損失を利用して、翻訳された画像セットと対象画像セットの分布を一致させる。これにより、2つの領域が例えば一様領域において異なる辺分布を持つようなアーティファクトが生成される。本稿では,翻訳後の一様領域を保存する教師なしIITを提案する。
論文参考訳（メタデータ） (2020-09-02T08:04:00Z)
Label-Driven Reconstruction for Domain Adaptation in Semantic Segmentation [43.09068177612067]
教師なしのドメイン適応は、セマンティックセグメンテーションにおけるピクセルワイズアノテーションの必要性を軽減することができる。最も一般的な戦略の1つは、ソースドメインからターゲットドメインに画像を変換し、敵対学習を用いて特徴空間内の限界分布を調整することである。本稿では、画像翻訳バイアスを緩和し、ドメイン間機能を同じカテゴリに整合させる革新的なフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-10T10:06:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。