Fugu-MT 論文翻訳(概要): SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions

論文の概要: SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions

arxiv url: http://arxiv.org/abs/2306.05178v2
Date: Fri, 18 Aug 2023 07:38:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 23:40:18.595876
Title: SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions
Title（参考訳）: syncdiffusion:同期ジョイント拡散によるコヒーレントモンタージュ
Authors: Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung
Abstract要約: 複数の画像を縫い合わせると、しばしば目に見える縫い目になる。本稿では,知覚的類似性損失からの勾配降下を通じて複数の拡散を同期するプラグイン・アンド・プレイモジュールSyncDiffusionを提案する。
参考スコア（独自算出の注目度）: 14.48564620768044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The remarkable capabilities of pretrained image diffusion models have been utilized not only for generating fixed-size images but also for creating panoramas. However, naive stitching of multiple images often results in visible seams. Recent techniques have attempted to address this issue by performing joint diffusions in multiple windows and averaging latent features in overlapping regions. However, these approaches, which focus on seamless montage generation, often yield incoherent outputs by blending different scenes within a single image. To overcome this limitation, we propose SyncDiffusion, a plug-and-play module that synchronizes multiple diffusions through gradient descent from a perceptual similarity loss. Specifically, we compute the gradient of the perceptual loss using the predicted denoised images at each denoising step, providing meaningful guidance for achieving coherent montages. Our experimental results demonstrate that our method produces significantly more coherent outputs compared to previous methods (66.35% vs. 33.65% in our user study) while still maintaining fidelity (as assessed by GIQA) and compatibility with the input prompt (as measured by CLIP score).
Abstract（参考訳）: 事前訓練された画像拡散モデルの顕著な機能は、固定サイズ画像の生成だけでなく、パノラマの作成にも利用されてきた。しかし、複数の画像を縫い合わせると、しばしば目に見える縫い目が生じる。近年,複数ウィンドウで共同拡散を行い,重なり合う領域で遅延特性を平均化する手法が提案されている。しかし、シームレスなモンタージュ生成に焦点をあてたこれらのアプローチは、1つの画像に異なるシーンを混ぜることで、しばしば不整合出力をもたらす。この制限を克服するため,我々は,知覚的類似性損失からの勾配降下を通じて複数の拡散を同期するプラグアンドプレイモジュールであるsyncdiffusionを提案する。具体的には,各音化ステップで予測された音化画像を用いて知覚損失の勾配を算出し,コヒーレントモンタージュを実現するための有意義なガイダンスを提供する。実験結果から,提案手法は従来手法に比べて一貫性が向上し(ユーザ調査では66.35%対33.65%),忠実度(GIQAによる評価)と入力プロンプトとの整合性(CLIPスコアによる評価)は維持されていることがわかった。

関連論文リスト

LATTE: Latent Trajectory Embedding for Diffusion-Generated Image Detection [11.700935740718675]
LATTE(Latent Trajectory Embedding)は、遅延埋め込みの進化をいくつかの遅延時間ステップでモデル化する、新しいアプローチである。単一ステップエラーではなく、そのような埋め込みの軌跡をモデル化することにより、LATTEは、生成した画像と実を区別する微妙で差別的なパターンをキャプチャする。
論文参考訳（メタデータ） (2025-07-03T12:53:47Z)
StochSync: Stochastic Diffusion Synchronization for Image Generation in Arbitrary Spaces [11.517082612850443]
本稿では,事前学習した画像拡散モデルを用いて任意の空間で画像を生成する手法を提案する。ゼロショット法は、画像条件付けと3Dメッシュ法の両方の長所を組み合わせたものである。
論文参考訳（メタデータ） (2025-01-26T08:22:44Z)
VipDiff: Towards Coherent and Diverse Video Inpainting via Training-free Denoising Diffusion Models [21.584843961386888]
VipDiffは、時間的コヒーレントな塗装結果を生成するために、逆拡散過程に拡散モデルを条件付けるためのフレームワークである。この手法は、空間的時間的コヒーレンスと忠実度の両方の観点から、最先端の映像塗装法よりも優れている。
論文参考訳（メタデータ） (2025-01-21T16:39:09Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文参考訳（メタデータ） (2024-08-28T09:22:32Z)
SpotDiffusion: A Fast Approach For Seamless Panorama Generation Over Time [7.532695984765271]
生成モデルを用いて高解像度画像を生成する新しい手法を提案する。提案手法は,時間とともに重なりのないデノベーションウィンドウをシフトさせ,一段階のシームが次回修正されるようにする。提案手法は計算効率の向上や推論時間の高速化など,いくつかの重要な利点を提供する。
論文参考訳（メタデータ） (2024-07-22T09:44:35Z)
Preserving Image Properties Through Initializations in Diffusion Models [6.804700416902898]
現在適用されている安定拡散法は,小売写真の要求を尊重しないことを示す。非常にノイズの多い画像でデノイザーを訓練する通常の習慣は、推論中に一貫性のない画像を生成する。均一な背景を持つ中央の小売商品画像で訓練されたネットワークは、不規則な背景を持つ画像を生成する。本手法は,拡散法における制御可能性を高めるために,他の制御法と良好に相互作用することができる。
論文参考訳（メタデータ） (2024-01-04T06:55:49Z)
AdaDiff: Adaptive Step Selection for Fast Diffusion [88.8198344514677]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。 AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
論文参考訳（メタデータ） (2023-11-24T11:20:38Z)
Collaborative Score Distillation for Consistent Visual Synthesis [70.29294250371312]
コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
論文参考訳（メタデータ） (2023-07-04T17:31:50Z)
Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。 DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文参考訳（メタデータ） (2023-05-15T20:24:38Z)
Exposure Fusion for Hand-held Camera Inputs with Optical Flow and PatchMatch [53.149395644547226]
ハンドヘルドカメラによるマルチ露光画像融合のためのハイブリッド合成法を提案する。提案手法は,このような動作に対処し,各入力の露光情報を効果的に維持する。実験の結果,本手法の有効性とロバスト性を示した。
論文参考訳（メタデータ） (2023-04-10T09:06:37Z)
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文参考訳（メタデータ） (2023-03-15T02:16:39Z)
Conffusion: Confidence Intervals for Diffusion Models [32.36217153362305]
現在の拡散法は、生成された結果に関する統計的保証を提供していない。我々は,1つの前方通過における間隔境界を予測するために,事前学習した拡散モデルを微調整する融合法を提案する。コンフュージョンは3桁の精度でベースライン法より優れていることを示す。
論文参考訳（メタデータ） (2022-11-17T18:58:15Z)
Markup-to-Image Diffusion Models with Scheduled Sampling [111.30188533324954]
画像生成の最近の進歩に基づき,画像にマークアップを描画するためのデータ駆動型アプローチを提案する。このアプローチは拡散モデルに基づいており、デノナイジング操作のシーケンスを用いてデータの分布をパラメータ化する。数式(La)、テーブルレイアウト(HTML)、シート音楽(LilyPond)、分子画像(SMILES)の4つのマークアップデータセットの実験を行った。
論文参考訳（メタデータ） (2022-10-11T04:56:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。