論文の概要: EBDM: Exemplar-guided Image Translation with Brownian-bridge Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.09802v1
- Date: Sun, 13 Oct 2024 11:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 04:52:52.349682
- Title: EBDM: Exemplar-guided Image Translation with Brownian-bridge Diffusion Models
- Title(参考訳): EBDM:Brownian-bridge Diffusion Modelを用いた経験的誘導画像変換
- Authors: Eungbean Lee, Somi Jeong, Kwanghoon Sohn,
- Abstract要約: 我々は,B Brownian-Bridge Diffusion Models (EBDM) を用いたExemplar-Guided Image Translation という新しい手法を提案する。
提案手法は, 所定の初期点を有する拡散過程を構造制御としてブラウンブリッジプロセスとして定式化し, 与えられた模範画像のみに条件付けしながら, 対応するフォトリアリスティック画像に変換する。
- 参考スコア(独自算出の注目度): 42.55874233756394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exemplar-guided image translation, synthesizing photo-realistic images that conform to both structural control and style exemplars, is attracting attention due to its ability to enhance user control over style manipulation. Previous methodologies have predominantly depended on establishing dense correspondences across cross-domain inputs. Despite these efforts, they incur quadratic memory and computational costs for establishing dense correspondence, resulting in limited versatility and performance degradation. In this paper, we propose a novel approach termed Exemplar-guided Image Translation with Brownian-Bridge Diffusion Models (EBDM). Our method formulates the task as a stochastic Brownian bridge process, a diffusion process with a fixed initial point as structure control and translates into the corresponding photo-realistic image while being conditioned solely on the given exemplar image. To efficiently guide the diffusion process toward the style of exemplar, we delineate three pivotal components: the Global Encoder, the Exemplar Network, and the Exemplar Attention Module to incorporate global and detailed texture information from exemplar images. Leveraging Bridge diffusion, the network can translate images from structure control while exclusively conditioned on the exemplar style, leading to more robust training and inference processes. We illustrate the superiority of our method over competing approaches through comprehensive benchmark evaluations and visual results.
- Abstract(参考訳): 構造制御とスタイル表現の両方に適合するフォトリアリスティックなイメージを合成するExemplar-guided Image Translationが注目されている。
それまでの方法論は、クロスドメイン入力間の密接な対応を確立することに大きく依存していた。
これらの努力にもかかわらず、密度の高い対応を確立するために2次記憶と計算コストがかかり、柔軟性と性能の低下が制限された。
本稿では,B Brownian-Bridge Diffusion Models (EBDM) を用いたExemplar-Guided Image Translation という新しい手法を提案する。
提案手法は, 確率的ブラウン橋プロセス, 固定初期点を有する拡散過程を構造制御として定式化し, 所定の模範画像のみに条件付けしながら, 対応するフォトリアリスティック画像に変換する。
本稿では,グローバルエンコーダ(Global Encoder),Exemplar Network(Exemplar Attention Module),およびExemplar Attention Module(Exemplar Attention Module)の3つの重要なコンポーネントを,グローバルかつ詳細なテクスチャ情報を例示画像から組み込む。
ブリッジ拡散を利用して、ネットワークは、模範的なスタイルでのみ条件付きながら、構造制御からのイメージを変換できるため、より堅牢なトレーニングと推論プロセスが実現される。
本手法は,総合的なベンチマーク評価と視覚的結果を通じて,競合するアプローチよりも優れていることを示す。
関連論文リスト
- Diffusion-Based Conditional Image Editing through Optimized Inference with Guidance [46.922018440110826]
本稿では,事前学習されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像翻訳のためのトレーニング不要なアプローチを提案する。
本手法は,事前学習した安定拡散モデルと組み合わせることで,様々なタスクにおける画像と画像の翻訳性能を向上する。
論文 参考訳(メタデータ) (2024-12-20T11:15:31Z) - Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Paint by Example: Exemplar-based Image Editing with Diffusion Models [35.84464684227222]
本稿では,より精密な制御のための画像編集について検討する。
我々は、この目標を達成するために、自己指導型トレーニングを活用して、ソースイメージとインスペクタをアンタングルし、再編成する。
提案手法は印象的な性能を実現し,高忠実度で画像の編集を制御できることを実証する。
論文 参考訳(メタデータ) (2022-11-23T18:59:52Z) - Pretraining is All You Need for Image-to-Image Translation [59.43151345732397]
画像から画像への一般的な翻訳を促進するために,事前学習を使うことを提案する。
提案した事前学習型画像画像変換(PITI)は,前例のないリアリズムと忠実さのイメージを合成できることを示す。
論文 参考訳(メタデータ) (2022-05-25T17:58:26Z) - BBDM: Image-to-image Translation with Brownian Bridge Diffusion Models [50.39417112077254]
BBDM(Brownian Bridge Diffusion Model)に基づく画像から画像への変換手法を提案する。
我々の知る限りでは、画像から画像への変換のためのブラウン橋拡散プロセスを提案する最初の作品である。
論文 参考訳(メタデータ) (2022-05-16T13:47:02Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z) - PerceptionGAN: Real-world Image Construction from Provided Text through
Perceptual Understanding [11.985768957782641]
本稿では,識別器モジュールに知覚的理解を取り入れ,優れた画像を提供する手法を提案する。
複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。
さらに重要なことに、提案手法は他の最先端のテキストベース画像生成モデルのパイプラインに統合することができる。
論文 参考訳(メタデータ) (2020-07-02T09:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。