論文の概要: Interpolating between Images with Diffusion Models
- arxiv url: http://arxiv.org/abs/2307.12560v1
- Date: Mon, 24 Jul 2023 07:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 15:23:03.548722
- Title: Interpolating between Images with Diffusion Models
- Title(参考訳): 拡散モデルによる画像間の補間
- Authors: Clinton J. Wang and Polina Golland
- Abstract要約: 2つの入力イメージ間の補間は、画像生成パイプラインから欠落するタスクである。
潜在拡散モデルを用いたゼロショット法を提案する。
一貫性を高めるために、あるいは追加の基準を指定するために、いくつかの候補を生成し、CLIPを使用して最高の画質のイメージを選択することができる。
- 参考スコア(独自算出の注目度): 2.6027967363792865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One little-explored frontier of image generation and editing is the task of
interpolating between two input images, a feature missing from all currently
deployed image generation pipelines. We argue that such a feature can expand
the creative applications of such models, and propose a method for zero-shot
interpolation using latent diffusion models. We apply interpolation in the
latent space at a sequence of decreasing noise levels, then perform denoising
conditioned on interpolated text embeddings derived from textual inversion and
(optionally) subject poses. For greater consistency, or to specify additional
criteria, we can generate several candidates and use CLIP to select the highest
quality image. We obtain convincing interpolations across diverse subject
poses, image styles, and image content, and show that standard quantitative
metrics such as FID are insufficient to measure the quality of an
interpolation. Code and data are available at
https://clintonjwang.github.io/interpolation.
- Abstract(参考訳): 画像生成と編集の小さな課題の一つは、2つの入力画像の間を補間する作業である。
このような特徴は,そのようなモデルの創造的応用を拡大し,潜在拡散モデルを用いたゼロショット補間法を提案する。
雑音レベルが減少する列の潜在空間において補間を行い、その後、テキスト反転および(任意に)主題ポーズに由来する補間されたテキスト組込みでデノージングを行う。
一貫性を高めるために、あるいは追加の基準を指定するために、いくつかの候補を生成し、CLIPを使用して高品質な画像を選択することができる。
様々な対象のポーズ,画像スタイル,画像内容にまたがる説得力のある補間を行い,fidなどの標準的な定量的指標が補間の品質を測定するには不十分であることを示す。
コードとデータはhttps://clintonjwang.github.io/interpolationで入手できる。
関連論文リスト
- RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance [22.326405355520176]
RefDropを使えば、ユーザーは直接的かつ正確な方法で参照コンテキストの影響を制御できる。
また,本手法は,複数の主題を一貫した生成など,より興味深い応用を可能にする。
論文 参考訳(メタデータ) (2024-05-27T21:23:20Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Smooth image-to-image translations with latent space interpolations [64.8170758294427]
マルチドメインイメージ・トゥ・イメージ(I2I)変換は、ターゲットドメインのスタイルに応じてソースイメージを変換することができる。
我々の正規化技術は、最先端のI2I翻訳を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2022-10-03T11:57:30Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - NeurInt : Learning to Interpolate through Neural ODEs [18.104328632453676]
本稿では,2つの画像間の軌跡分布を学習する新しい生成モデルを提案する。
提案手法の有効性を示すとともに,画像の品質向上と,実画像と対象画像の任意のペアに対して,スムーズな軌道上の多様な分布を学習する能力を示す。
論文 参考訳(メタデータ) (2021-11-07T16:31:18Z) - Smoothing the Disentangled Latent Style Space for Unsupervised
Image-to-Image Translation [56.55178339375146]
イメージ・ツー・イメージ(I2I)マルチドメイン翻訳モデルは通常、セマンティックな結果の品質を用いて評価される。
本稿では,翻訳ネットワークがスムーズでゆがみのあるラテントスタイル空間を学習するのに役立つ,3つの特定の損失に基づく新たなトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-16T17:58:21Z) - UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion
Probabilistic Models [19.499490172426427]
そこで本研究では, 拡散確率モデルを用いた非対比画像・画像変換手法を提案する。
拡散確率モデル(UNIT-DDPM)を用いたUnpaired Image Translation with Denoising Diffusion Probabilistic Models (UNT-DDPM) は,両領域の画像の共同分布をマルコフ鎖として推定する生成モデルを訓練する。
論文 参考訳(メタデータ) (2021-04-12T11:22:56Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - Weighted Encoding Based Image Interpolation With Nonlocal Linear
Regression Model [8.013127492678272]
超高解像度画像では、低解像度画像は、ぼやけやノイズを伴わずに、その高解像度画像から直接ダウンサンプリングされる。
この問題に対処するために,スパース表現に基づく新しい画像モデルを提案する。
クラスタリングではなく、オンラインの適応サブ辞書を学習するための新しいアプローチ。
論文 参考訳(メタデータ) (2020-03-04T03:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。