論文の概要: Addressing degeneracies in latent interpolation for diffusion models
- arxiv url: http://arxiv.org/abs/2505.07481v1
- Date: Mon, 12 May 2025 12:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.369951
- Title: Addressing degeneracies in latent interpolation for diffusion models
- Title(参考訳): 拡散モデルに対する潜時補間における対処的退化
- Authors: Erik Landolsi, Fredrik Kahl,
- Abstract要約: 入力画像の集合を反転させて生成した潜伏剤間の補間に有用である。
入力数が大きければ, 結果の退化に繋がることが観察できる。
そこで本研究では,潜伏者間において容易に使用可能な簡易正規化方式を提案する。
- 参考スコア(独自算出の注目度): 11.80626524879555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is an increasing interest in using image-generating diffusion models for deep data augmentation and image morphing. In this context, it is useful to interpolate between latents produced by inverting a set of input images, in order to generate new images representing some mixture of the inputs. We observe that such interpolation can easily lead to degenerate results when the number of inputs is large. We analyze the cause of this effect theoretically and experimentally, and suggest a suitable remedy. The suggested approach is a relatively simple normalization scheme that is easy to use whenever interpolation between latents is needed. We measure image quality using FID and CLIP embedding distance and show experimentally that baseline interpolation methods lead to a drop in quality metrics long before the degeneration issue is clearly visible. In contrast, our method significantly reduces the degeneration effect and leads to improved quality metrics also in non-degenerate situations.
- Abstract(参考訳): 画像生成拡散モデルを用いた深部データ拡張と画像変形への関心が高まっている。
この文脈では、入力画像の集合を反転させて生成された潜水剤を補間して、入力の混合物を表す新しい画像を生成するのが有用である。
このような補間は入力数が大きい場合に容易に退化を導出できる。
我々はこの効果の原因を理論的、実験的に分析し、適切な治療法を提案する。
提案手法は比較的単純な正規化方式であり、潜伏子間の補間が必要なときに容易に利用できる。
FIDとCLIPの埋め込み距離を用いて画像品質を測定し, 劣化が明らかになるずっと前に, ベースライン補間法が品質指標の低下につながることを実験的に示す。
対照的に,本手法は変性効果を著しく低減し,非変性状況においても品質指標の改善につながる。
関連論文リスト
- A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。
具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。
これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文 参考訳(メタデータ) (2025-04-09T11:46:41Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - SpotDiffusion: A Fast Approach For Seamless Panorama Generation Over Time [7.532695984765271]
生成モデルを用いて高解像度画像を生成する新しい手法を提案する。
提案手法は,時間とともに重なりのないデノベーションウィンドウをシフトさせ,一段階のシームが次回修正されるようにする。
提案手法は計算効率の向上や推論時間の高速化など,いくつかの重要な利点を提供する。
論文 参考訳(メタデータ) (2024-07-22T09:44:35Z) - Interpolating between Images with Diffusion Models [2.6027967363792865]
2つの入力イメージ間の補間は、画像生成パイプラインから欠落するタスクである。
潜在拡散モデルを用いたゼロショット法を提案する。
一貫性を高めるために、あるいは追加の基準を指定するために、いくつかの候補を生成し、CLIPを使用して最高の画質のイメージを選択することができる。
論文 参考訳(メタデータ) (2023-07-24T07:03:22Z) - Deep Uncalibrated Photometric Stereo via Inter-Intra Image Feature
Fusion [17.686973510425172]
本稿では, 深部非校正光度ステレオの新しい手法を提案する。
画像間表現を効率的に利用し、正規推定を導出する。
本手法は, 合成データと実データの両方において, 最先端の手法よりも有意に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-06T03:59:54Z) - Deblurring via Stochastic Refinement [85.42730934561101]
条件付き拡散モデルに基づくブラインドデブロアリングのための代替フレームワークを提案する。
提案手法は,PSNRなどの歪み指標の点で競合する。
論文 参考訳(メタデータ) (2021-12-05T04:36:09Z) - Learning Discriminative Shrinkage Deep Networks for Image Deconvolution [122.79108159874426]
本稿では,これらの用語を暗黙的にモデル化する識別的縮小関数を学習することで,効果的に非盲検デコンボリューション手法を提案する。
実験結果から,提案手法は最先端の手法に対して,効率と精度の点で好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-11-27T12:12:57Z) - NeurInt : Learning to Interpolate through Neural ODEs [18.104328632453676]
本稿では,2つの画像間の軌跡分布を学習する新しい生成モデルを提案する。
提案手法の有効性を示すとともに,画像の品質向上と,実画像と対象画像の任意のペアに対して,スムーズな軌道上の多様な分布を学習する能力を示す。
論文 参考訳(メタデータ) (2021-11-07T16:31:18Z) - Weighted Encoding Based Image Interpolation With Nonlocal Linear
Regression Model [8.013127492678272]
超高解像度画像では、低解像度画像は、ぼやけやノイズを伴わずに、その高解像度画像から直接ダウンサンプリングされる。
この問題に対処するために,スパース表現に基づく新しい画像モデルを提案する。
クラスタリングではなく、オンラインの適応サブ辞書を学習するための新しいアプローチ。
論文 参考訳(メタデータ) (2020-03-04T03:20:21Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。