論文の概要: Collaborative Score Distillation for Consistent Visual Synthesis
- arxiv url: http://arxiv.org/abs/2307.04787v1
- Date: Tue, 4 Jul 2023 17:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-16 04:03:33.894917
- Title: Collaborative Score Distillation for Consistent Visual Synthesis
- Title(参考訳): 一貫性のある視覚合成のための協調スコア蒸留
- Authors: Subin Kim, Kyungmin Lee, June Suk Choi, Jongheon Jeong, Kihyuk Sohn,
Jinwoo Shin
- Abstract要約: コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。
本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。
本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
- 参考スコア(独自算出の注目度): 70.29294250371312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative priors of large-scale text-to-image diffusion models enable a wide
range of new generation and editing applications on diverse visual modalities.
However, when adapting these priors to complex visual modalities, often
represented as multiple images (e.g., video), achieving consistency across a
set of images is challenging. In this paper, we address this challenge with a
novel method, Collaborative Score Distillation (CSD). CSD is based on the Stein
Variational Gradient Descent (SVGD). Specifically, we propose to consider
multiple samples as "particles" in the SVGD update and combine their score
functions to distill generative priors over a set of images synchronously.
Thus, CSD facilitates seamless integration of information across 2D images,
leading to a consistent visual synthesis across multiple samples. We show the
effectiveness of CSD in a variety of tasks, encompassing the visual editing of
panorama images, videos, and 3D scenes. Our results underline the competency of
CSD as a versatile method for enhancing inter-sample consistency, thereby
broadening the applicability of text-to-image diffusion models.
- Abstract(参考訳): 大規模テキストと画像の拡散モデルの生成先行により、多様な視覚的モダリティに関する幅広い新しい生成および編集アプリケーションが可能になる。
しかし、これらのプリエントを複数の画像(例えばビデオ)として表現される複雑な視覚モダリティに適応させる場合、一連の画像の一貫性を達成することは困難である。
本稿では,この課題を協調スコア蒸留(csd)という新しい手法で解決する。
CSDはStein Variational Gradient Descent (SVGD)に基づいている。
具体的には、SVGD更新において複数のサンプルを「粒子」とみなし、それらのスコア関数を組み合わせて、画像の集合を同期的に生成する。
したがって、CSDは2次元画像間の情報のシームレスな統合を促進し、複数のサンプル間で一貫した視覚合成をもたらす。
本研究では,パノラマ画像,ビデオ,および3dシーンのビジュアル編集を行い,様々なタスクにおけるcsdの有効性を示す。
本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
関連論文リスト
- GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing [38.948892064761914]
GaussCtrlは、3D Gaussian Splatting(3DGS)によって再構成された3Dシーンを編集するテキスト駆動方式である。
私たちの重要な貢献は、複数ビューの一貫性のある編集であり、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集できる。
論文 参考訳(メタデータ) (2024-03-13T17:35:28Z) - 3D-aware Image Generation and Editing with Multi-modal Conditions [6.444512435220748]
1つの2Dセマンティックラベルから3D一貫性のある画像を生成することは、コンピュータグラフィックスとコンピュータビジョンにおいて重要かつ困難な研究トピックである。
複数種類の条件入力を組み込んだ新しい3D画像生成・編集モデルを提案する。
提案手法は,異なるノイズを持つ多様な画像を生成し,テキスト記述を通じて属性を編集し,参照RGB画像を与えることでスタイル転送を行う。
論文 参考訳(メタデータ) (2024-03-11T07:10:37Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based
Image Editing [98.30393804479152]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Text-driven Visual Synthesis with Latent Diffusion Prior [37.736313030226654]
本稿では,様々な視覚合成タスクにおいて,遅延拡散モデルを用いた画像先行処理の汎用的手法を提案する。
提案手法の有効性を,テキストから3D,スタイルGAN適応,階層画像編集の3つの異なるアプリケーションで実証する。
論文 参考訳(メタデータ) (2023-02-16T18:59:58Z) - TriPINet: Tripartite Progressive Integration Network for Image
Manipulation Localization [3.7359400978194675]
本稿では,3部構成のプログレッシブ統合ネットワーク(TriPINet)を提案する。
我々は,異なる種類の手掛かりを融合させるガイド付きクロスモーダリティ・デュアルアテンション(gCMDA)モジュールを開発した。
本手法と最先端画像鑑定法との比較のために, 大規模な実験を行った。
論文 参考訳(メタデータ) (2022-12-25T02:27:58Z) - SDEdit: Image Synthesis and Editing with Stochastic Differential
Equations [113.35735935347465]
微分方程式を用いた最近の生成モデルに基づく微分編集(SDEdit)を導入する。
ユーザが編集した入力画像が与えられたら、まずSDEに従って入力にノイズを付加し、その後、逆SDEをシミュレートして、その確率を前より徐々に増加させます。
GANインバージョンに基づく最近の画像編集手法において重要な要素であるタスク固有損失関数の設計は不要である。
論文 参考訳(メタデータ) (2021-08-02T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。