論文の概要: SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions
- arxiv url: http://arxiv.org/abs/2306.05178v2
- Date: Fri, 18 Aug 2023 07:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 23:40:18.595876
- Title: SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions
- Title(参考訳): syncdiffusion:同期ジョイント拡散によるコヒーレントモンタージュ
- Authors: Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung
- Abstract要約: 複数の画像を縫い合わせると、しばしば目に見える縫い目になる。
本稿では,知覚的類似性損失からの勾配降下を通じて複数の拡散を同期するプラグイン・アンド・プレイモジュールSyncDiffusionを提案する。
- 参考スコア(独自算出の注目度): 14.48564620768044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable capabilities of pretrained image diffusion models have been
utilized not only for generating fixed-size images but also for creating
panoramas. However, naive stitching of multiple images often results in visible
seams. Recent techniques have attempted to address this issue by performing
joint diffusions in multiple windows and averaging latent features in
overlapping regions. However, these approaches, which focus on seamless montage
generation, often yield incoherent outputs by blending different scenes within
a single image. To overcome this limitation, we propose SyncDiffusion, a
plug-and-play module that synchronizes multiple diffusions through gradient
descent from a perceptual similarity loss. Specifically, we compute the
gradient of the perceptual loss using the predicted denoised images at each
denoising step, providing meaningful guidance for achieving coherent montages.
Our experimental results demonstrate that our method produces significantly
more coherent outputs compared to previous methods (66.35% vs. 33.65% in our
user study) while still maintaining fidelity (as assessed by GIQA) and
compatibility with the input prompt (as measured by CLIP score).
- Abstract(参考訳): 事前訓練された画像拡散モデルの顕著な機能は、固定サイズ画像の生成だけでなく、パノラマの作成にも利用されてきた。
しかし、複数の画像を縫い合わせると、しばしば目に見える縫い目が生じる。
近年,複数ウィンドウで共同拡散を行い,重なり合う領域で遅延特性を平均化する手法が提案されている。
しかし、シームレスなモンタージュ生成に焦点をあてたこれらのアプローチは、1つの画像に異なるシーンを混ぜることで、しばしば不整合出力をもたらす。
この制限を克服するため,我々は,知覚的類似性損失からの勾配降下を通じて複数の拡散を同期するプラグアンドプレイモジュールであるsyncdiffusionを提案する。
具体的には,各音化ステップで予測された音化画像を用いて知覚損失の勾配を算出し,コヒーレントモンタージュを実現するための有意義なガイダンスを提供する。
実験結果から,提案手法は従来手法に比べて一貫性が向上し(ユーザ調査では66.35%対33.65%),忠実度(GIQAによる評価)と入力プロンプトとの整合性(CLIPスコアによる評価)は維持されていることがわかった。
関連論文リスト
- Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - SpotDiffusion: A Fast Approach For Seamless Panorama Generation Over Time [7.532695984765271]
生成モデルを用いて高解像度画像を生成する新しい手法を提案する。
提案手法は,時間とともに重なりのないデノベーションウィンドウをシフトさせ,一段階のシームが次回修正されるようにする。
提案手法は計算効率の向上や推論時間の高速化など,いくつかの重要な利点を提供する。
論文 参考訳(メタデータ) (2024-07-22T09:44:35Z) - Preserving Image Properties Through Initializations in Diffusion Models [6.804700416902898]
現在適用されている安定拡散法は,小売写真の要求を尊重しないことを示す。
非常にノイズの多い画像でデノイザーを訓練する通常の習慣は、推論中に一貫性のない画像を生成する。
均一な背景を持つ中央の小売商品画像で訓練されたネットワークは、不規則な背景を持つ画像を生成する。
本手法は,拡散法における制御可能性を高めるために,他の制御法と良好に相互作用することができる。
論文 参考訳(メタデータ) (2024-01-04T06:55:49Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion [88.8198344514677]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。
AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。
提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - Collaborative Score Distillation for Consistent Visual Synthesis [70.29294250371312]
コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。
本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。
本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
論文 参考訳(メタデータ) (2023-07-04T17:31:50Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Exposure Fusion for Hand-held Camera Inputs with Optical Flow and
PatchMatch [53.149395644547226]
ハンドヘルドカメラによるマルチ露光画像融合のためのハイブリッド合成法を提案する。
提案手法は,このような動作に対処し,各入力の露光情報を効果的に維持する。
実験の結果,本手法の有効性とロバスト性を示した。
論文 参考訳(メタデータ) (2023-04-10T09:06:37Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Conffusion: Confidence Intervals for Diffusion Models [32.36217153362305]
現在の拡散法は、生成された結果に関する統計的保証を提供していない。
我々は,1つの前方通過における間隔境界を予測するために,事前学習した拡散モデルを微調整する融合法を提案する。
コンフュージョンは3桁の精度でベースライン法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-17T18:58:15Z) - Markup-to-Image Diffusion Models with Scheduled Sampling [111.30188533324954]
画像生成の最近の進歩に基づき,画像にマークアップを描画するためのデータ駆動型アプローチを提案する。
このアプローチは拡散モデルに基づいており、デノナイジング操作のシーケンスを用いてデータの分布をパラメータ化する。
数式(La)、テーブルレイアウト(HTML)、シート音楽(LilyPond)、分子画像(SMILES)の4つのマークアップデータセットの実験を行った。
論文 参考訳(メタデータ) (2022-10-11T04:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。