Fugu-MT 論文翻訳(概要): Key-point Guided Deformable Image Manipulation Using Diffusion Model

論文の概要: Key-point Guided Deformable Image Manipulation Using Diffusion Model

arxiv url: http://arxiv.org/abs/2401.08178v2
Date: Mon, 18 Mar 2024 03:15:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 02:22:38.175768
Title: Key-point Guided Deformable Image Manipulation Using Diffusion Model
Title（参考訳）: 拡散モデルを用いたキーポイント誘導変形画像マニピュレーション
Authors: Seok-Hwan Oh, Guil Jung, Myeong-Gee Kim, Sang-Yun Kim, Young-Min Kim, Hyeon-Jik Lee, Hyuk-Sool Kwon, Hyeon-Min Bae,
Abstract要約: キーポイント誘導拡散確率モデル(KDM) 中間出力として光フローマップを組み込んだ2段階生成モデルを提案する。 KDMは様々なキーポイント条件付き画像合成タスクで評価される。
参考スコア（独自算出の注目度）: 6.248958373118395
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce a Key-point-guided Diffusion probabilistic Model (KDM) that gains precise control over images by manipulating the object's key-point. We propose a two-stage generative model incorporating an optical flow map as an intermediate output. By doing so, a dense pixel-wise understanding of the semantic relation between the image and sparse key point is configured, leading to more realistic image generation. Additionally, the integration of optical flow helps regulate the inter-frame variance of sequential images, demonstrating an authentic sequential image generation. The KDM is evaluated with diverse key-point conditioned image synthesis tasks, including facial image generation, human pose synthesis, and echocardiography video prediction, demonstrating the KDM is proving consistency enhanced and photo-realistic images compared with state-of-the-art models.
Abstract（参考訳）: 本稿では,キーポイント誘導拡散確率モデル(KDM)を提案する。中間出力として光フローマップを組み込んだ2段階生成モデルを提案する。これにより、画像とスパースキーポイントのセマンティクス関係の高密度な画素ワイズ理解が構成され、より現実的な画像生成につながる。さらに、光学フローの統合は、シーケンシャルな画像のフレーム間分散を制御し、真にシーケンシャルな画像生成を示す。 KDMは、顔画像生成、ヒトのポーズ合成、心エコー画像予測など、さまざまなキーポイント条件付き画像合成タスクを用いて評価され、KDMは、最先端のモデルと比較して一貫性とフォトリアリスティックなイメージを実証している。

関連論文リスト

D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文参考訳（メタデータ） (2025-03-21T13:58:49Z)
Multi-focal Conditioned Latent Diffusion for Person Image Synthesis [59.113899155476005]
遅延拡散モデル(LDM)は高解像度画像生成において強力な機能を示した。これらの制約に対処する多焦点条件付き潜時拡散法(MCLD)を提案する。本手法では,顔の同一性やテクスチャ固有の情報を効果的に統合する多焦点条件アグリゲーションモジュールを利用する。
論文参考訳（メタデータ） (2025-03-19T20:50:10Z)
Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文参考訳（メタデータ） (2024-02-28T06:07:07Z)
Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文参考訳（メタデータ） (2023-11-28T21:14:02Z)
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。 FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文参考訳（メタデータ） (2023-08-02T13:43:03Z)
Decoupled Diffusion Models: Simultaneous Image to Zero and Zero to Noise [53.04220377034574]
10機能未満の高画質(未条件)の画像生成のためのデカップリング拡散モデル(DDM)を提案する。我々は,1) 画像から0遷移までをモデル化した解析的遷移確率に基づいて, 学習目標と(2) サンプリング式を逆時間に導出する。 1)無条件画像生成, CIFAR-10, CelebA-HQ-256, 2)超解像, 塩分検出, エッジ検出, 画像入力などの下流処理, テキスト処理, テキスト処理, テキスト処理, テキスト処理, 画像処理, 画像処理などと比較して, 非常に競争力のある性能が得られる。
論文参考訳（メタデータ） (2023-06-23T18:08:00Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文参考訳（メタデータ） (2022-04-13T01:10:33Z)
Contrastive Multiview Coding with Electro-optics for SAR Semantic Segmentation [0.6445605125467573]
SARセマンティックセグメンテーションのためのマルチモーダル表現学習を提案する。従来の研究とは異なり,本手法ではEO画像,SAR画像,ラベルマスクを併用した。いくつかの実験により,本手法はモデル性能,サンプル効率,収束速度において既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2021-08-31T23:55:41Z)
SIR: Self-supervised Image Rectification via Seeing the Same Scene from Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文参考訳（メタデータ） (2020-11-30T08:23:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。