論文の概要: ViewFusion: Towards Multi-View Consistency via Interpolated Denoising
- arxiv url: http://arxiv.org/abs/2402.18842v1
- Date: Thu, 29 Feb 2024 04:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:14:16.640108
- Title: ViewFusion: Towards Multi-View Consistency via Interpolated Denoising
- Title(参考訳): viewfusion:interpolated denoisingによるマルチビュー一貫性の実現
- Authors: Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil
Avraham, Anton van den Hengel
- Abstract要約: 既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。
提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。
我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
- 参考スコア(独自算出の注目度): 48.02829400913904
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Novel-view synthesis through diffusion models has demonstrated remarkable
potential for generating diverse and high-quality images. Yet, the independent
process of image generation in these prevailing methods leads to challenges in
maintaining multiple-view consistency. To address this, we introduce
ViewFusion, a novel, training-free algorithm that can be seamlessly integrated
into existing pre-trained diffusion models. Our approach adopts an
auto-regressive method that implicitly leverages previously generated views as
context for the next view generation, ensuring robust multi-view consistency
during the novel-view generation process. Through a diffusion process that
fuses known-view information via interpolated denoising, our framework
successfully extends single-view conditioned models to work in multiple-view
conditional settings without any additional fine-tuning. Extensive experimental
results demonstrate the effectiveness of ViewFusion in generating consistent
and detailed novel views.
- Abstract(参考訳): 拡散モデルによる新しいビュー合成は、多彩で高品質な画像を生成する顕著な可能性を示している。
しかし,これらの手法における画像生成の独立したプロセスは,複数視点の一貫性を維持する上での課題に繋がる。
そこで本研究では,既存の拡散モデルにシームレスに統合可能な,新しいトレーニングフリーなアルゴリズムであるviewfusionを提案する。
提案手法では,従来のビューをコンテキストとして暗黙的に活用する自動回帰手法を採用し,新規ビュー生成プロセスにおける堅牢なマルチビュー整合性を確保する。
補間デノベーションにより既知のビュー情報を融合する拡散プロセスを通じて、我々は、単一ビュー条件付きモデルを拡張して、追加の微調整なしで複数ビュー条件設定で動作させることに成功した。
広範にわたる実験結果は、一貫した詳細な新しいビューを生成するためのViewFusionの有効性を示している。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - ViewFusion: Learning Composable Diffusion Models for Novel View
Synthesis [47.57948804514928]
この研究は、新しいビュー合成に対する最先端のエンドツーエンド生成アプローチであるViewFusionを導入している。
ViewFusionは、シーンの任意の入力ビューに拡散デノゲーションステップを同時に適用する。
論文 参考訳(メタデータ) (2024-02-05T11:22:14Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion [60.30030562932703]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。
16枚のマルチビュー画像をわずか12秒で生成する。
品質評価の指標では、以前の手法を上回ります。
論文 参考訳(メタデータ) (2023-12-11T05:20:52Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - On Conditioning the Input Noise for Controlled Image Generation with
Diffusion Models [27.472482893004862]
条件付き画像生成は、画像編集、ストック写真の生成、および3Dオブジェクト生成におけるいくつかのブレークスルーの道を開いた。
本研究では,入出力ノイズアーチファクトを慎重に構築した条件拡散モデルを提案する。
論文 参考訳(メタデータ) (2022-05-08T13:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。