論文の概要: IMPUS: Image Morphing with Perceptually-Uniform Sampling Using Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.06792v2
- Date: Sat, 16 Mar 2024 05:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 03:02:46.039908
- Title: IMPUS: Image Morphing with Perceptually-Uniform Sampling Using Diffusion Models
- Title(参考訳): IMPUS:拡散モデルを用いた知覚的一様サンプリングによる画像モーフィング
- Authors: Zhaoyuan Yang, Zhengyang Yu, Zhiwei Xu, Jaskirat Singh, Jing Zhang, Dylan Campbell, Peter Tu, Richard Hartley,
- Abstract要約: 知覚一様サンプリング(IMPUS)を用いた拡散型画像形成手法を提案する。
IMPUSは画像対を与えられた滑らかで直接的で現実的な適応を生成する。
- 参考スコア(独自算出の注目度): 24.382275473592046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a diffusion-based image morphing approach with perceptually-uniform sampling (IMPUS) that produces smooth, direct and realistic interpolations given an image pair. The embeddings of two images may lie on distinct conditioned distributions of a latent diffusion model, especially when they have significant semantic difference. To bridge this gap, we interpolate in the locally linear and continuous text embedding space and Gaussian latent space. We first optimize the endpoint text embeddings and then map the images to the latent space using a probability flow ODE. Unlike existing work that takes an indirect morphing path, we show that the model adaptation yields a direct path and suppresses ghosting artifacts in the interpolated images. To achieve this, we propose a heuristic bottleneck constraint based on a novel relative perceptual path diversity score that automatically controls the bottleneck size and balances the diversity along the path with its directness. We also propose a perceptually-uniform sampling technique that enables visually smooth changes between the interpolated images. Extensive experiments validate that our IMPUS can achieve smooth, direct, and realistic image morphing and is adaptable to several other generative tasks.
- Abstract(参考訳): 画像ペアが与えられたスムーズで直接的かつ現実的な補間を生成するIMPUS(Perceptually-uniform sample)を用いた拡散型画像モーフィング手法を提案する。
2つの画像の埋め込みは、特に有意な意味差がある場合、潜伏拡散モデルの異なる条件付き分布に依存する可能性がある。
このギャップを埋めるために、局所線型かつ連続的なテキスト埋め込み空間とガウス潜在空間を補間する。
まず、まずエンドポイントテキストの埋め込みを最適化し、次に確率フローODEを用いてイメージを潜在空間にマッピングする。
間接的なモーフィングパスを取る既存の作業とは異なり、モデル適応は直接パスを生成し、補間された画像のゴーストアーティファクトを抑制する。
そこで本研究では,新たな相対的知覚経路の多様性スコアに基づくヒューリスティックなボトルネック制約を提案する。
また、補間画像間の視覚的スムーズな変化を可能にする知覚一様サンプリング手法を提案する。
広範囲な実験により、IMPUSはスムーズで、直接的で、現実的な画像形態を達成でき、他のいくつかの生成タスクに適応可能であることが検証された。
関連論文リスト
- AID: Attention Interpolation of Text-to-Image Diffusion [64.87754163416241]
AID(Attention Interpolation via Diffusion)という,トレーニング不要な手法を導入する。
AIDは補間された注意を自己注意と融合させ、忠実性を高める。
また,条件に依存した生成過程として,拡散による条件誘導注意補間(AID)も提案する。
論文 参考訳(メタデータ) (2024-03-26T17:57:05Z) - DiffMorpher: Unleashing the Capability of Diffusion Models for Image
Morphing [28.593023489682654]
DiffMorpherは、拡散モデルを用いて、スムーズで自然な画像のモーフィングを可能にする最初のアプローチである。
私たちのキーとなるアイデアは、2つのLoRAをそれぞれ組み合わせることで2つの画像の意味を捉え、LoRAパラメータと潜時ノイズの両方を補間することで、スムーズなセマンティック・トランジションを確保することです。
また,連続画像間のスムーズさをさらに高めるため,注意・注入手法と新しいサンプリングスケジュールを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:28:08Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation [11.80682025950519]
本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。
拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。
本手法は,タスクニーズを理解するための新しい視点を提供し,より広い範囲のカスタマイズシナリオに適用可能である。
論文 参考訳(メタデータ) (2023-06-14T05:25:06Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - NeurInt : Learning to Interpolate through Neural ODEs [18.104328632453676]
本稿では,2つの画像間の軌跡分布を学習する新しい生成モデルを提案する。
提案手法の有効性を示すとともに,画像の品質向上と,実画像と対象画像の任意のペアに対して,スムーズな軌道上の多様な分布を学習する能力を示す。
論文 参考訳(メタデータ) (2021-11-07T16:31:18Z) - Parallelised Diffeomorphic Sampling-based Motion Planning [30.310891362316863]
並列化拡散型サンプリングベースモーションプランニング(PDMP)を提案する。
PDMPは、サンプリングベースモーションプランナーのサンプリング分布を、正規化フローに似た方法で変換する。
PDMPは、コストの勾配情報を利用して、最適化ベースのモーションプランニング手法と同様の方法で仕様を注入することができる。
論文 参考訳(メタデータ) (2021-08-26T13:15:11Z) - Joint Estimation of Image Representations and their Lie Invariants [57.3768308075675]
画像は世界の状態とコンテンツの両方をエンコードする。
この情報の自動抽出は、画像表現に固有の高次元かつ絡み合った符号化のために困難である。
本稿では,これらの課題の解決を目的とした2つの理論的アプローチを紹介する。
論文 参考訳(メタデータ) (2020-12-05T00:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。