論文の概要: MVDiffusion: Enabling Holistic Multi-view Image Generation with
Correspondence-Aware Diffusion
- arxiv url: http://arxiv.org/abs/2307.01097v3
- Date: Wed, 9 Aug 2023 04:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:08:45.102338
- Title: MVDiffusion: Enabling Holistic Multi-view Image Generation with
Correspondence-Aware Diffusion
- Title(参考訳): mvdiffusion:対応認識拡散を用いた総合的多視点画像生成の実現
- Authors: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
- Abstract要約: 本稿では,シンプルなマルチビュー画像生成手法であるMVDiffusionを紹介する。
MVDiffusionは、高解像度でリッチなコンテンツを含む、グローバルな認識を持つすべてのイメージを同時に生成する。
パノラマ画像に関しては、MVDiffusionは1024$times$1024ピクセルまでの高解像度のフォトリアリスティック画像を生成することができる。
- 参考スコア(独自算出の注目度): 30.469248153134647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MVDiffusion, a simple yet effective multi-view image
generation method for scenarios where pixel-to-pixel correspondences are
available, such as perspective crops from panorama or multi-view images given
geometry (depth maps and poses). Unlike prior models that rely on iterative
image warping and inpainting, MVDiffusion concurrently generates all images
with a global awareness, encompassing high resolution and rich content,
effectively addressing the error accumulation prevalent in preceding models.
MVDiffusion specifically incorporates a correspondence-aware attention
mechanism, enabling effective cross-view interaction. This mechanism underpins
three pivotal modules: 1) a generation module that produces low-resolution
images while maintaining global correspondence, 2) an interpolation module that
densifies spatial coverage between images, and 3) a super-resolution module
that upscales into high-resolution outputs. In terms of panoramic imagery,
MVDiffusion can generate high-resolution photorealistic images up to
1024$\times$1024 pixels. For geometry-conditioned multi-view image generation,
MVDiffusion demonstrates the first method capable of generating a textured map
of a scene mesh. The project page is at https://mvdiffusion.github.io.
- Abstract(参考訳): 本稿では,パノラマ画像や多視点画像(深度マップとポーズ)など,画素対ピクセル対応が利用可能なシナリオに対して,シンプルで効果的なマルチビュー画像生成手法であるMVDiffusionを紹介する。
反復的なイメージウォーピングとインペインティングに依存する以前のモデルとは異なり、mvdiffusionは、高解像度とリッチなコンテンツを含むグローバルアウェアネスを持つ全ての画像を同時に生成し、前モデルで広く普及したエラー蓄積を効果的に解決する。
MVDiffusionは特に、効果的なクロスビューインタラクションを可能にする対応対応型アテンション機構を組み込んでいる。
このメカニズムは3つの重要なモジュールを支える。
1)グローバル対応を維持しつつ低解像度画像を生成する生成モジュール
2)画像間の空間被覆を拡大する補間モジュール及び
3) 高解像度出力にスケールアップ可能なスーパーレゾリューションモジュール。
パノラマ画像に関しては、mvdiffusionは1024$\times$1024ピクセルの高解像度フォトリアリスティック画像を生成することができる。
幾何条件のマルチビュー画像生成では、MVDiffusionはシーンメッシュのテクスチャマップを生成する最初の方法を示す。
プロジェクトページはhttps://mvdiffusion.github.ioにある。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - From Bird's-Eye to Street View: Crafting Diverse and Condition-Aligned Images with Latent Diffusion Model [16.716345249091408]
我々は,バード・アイビューの生成を探索し,BEVマップを対応する多視点ストリートイメージに変換する。
提案手法は,ニューラルビュー変換とストリート画像生成の2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-09-02T07:47:16Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention [87.02613021058484]
単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。
Era3Dは、最大512*512の解像度で高品質なマルチビュー画像を生成し、複雑さを12倍に削減する。
論文 参考訳(メタデータ) (2024-05-19T17:13:16Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - SinMPI: Novel View Synthesis from a Single Image with Expanded
Multiplane Images [22.902506592749816]
本稿では,拡張多面体画像(MPI)を3次元シーン表現として利用する新しい手法であるSinMPIを提案する。
我々の手法の鍵となる考え方は、ビュー外のコンテンツを生成するために、安定拡散を使用することである。
本手法の最先端性を検証するために,定性的および定量的な実験が実施されている。
論文 参考訳(メタデータ) (2023-12-18T09:16:30Z) - EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion [60.30030562932703]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。
16枚のマルチビュー画像をわずか12秒で生成する。
品質評価の指標では、以前の手法を上回ります。
論文 参考訳(メタデータ) (2023-12-11T05:20:52Z) - Bridging the Visual Gap: Wide-Range Image Blending [16.464837892640812]
広域画像ブレンドを実現するための効果的なディープラーニングモデルを提案する。
提案手法が視覚的に魅力的な結果をもたらすことを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-28T15:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。