Fugu-MT 論文翻訳(概要): MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion

論文の概要: MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion

arxiv url: http://arxiv.org/abs/2307.01097v3
Date: Wed, 9 Aug 2023 04:15:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-10 17:08:45.102338
Title: MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion
Title（参考訳）: mvdiffusion:対応認識拡散を用いた総合的多視点画像生成の実現
Authors: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
Abstract要約: 本稿では,シンプルなマルチビュー画像生成手法であるMVDiffusionを紹介する。 MVDiffusionは、高解像度でリッチなコンテンツを含む、グローバルな認識を持つすべてのイメージを同時に生成する。パノラマ画像に関しては、MVDiffusionは1024$times$1024ピクセルまでの高解像度のフォトリアリスティック画像を生成することができる。
参考スコア（独自算出の注目度）: 30.469248153134647
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces MVDiffusion, a simple yet effective multi-view image generation method for scenarios where pixel-to-pixel correspondences are available, such as perspective crops from panorama or multi-view images given geometry (depth maps and poses). Unlike prior models that rely on iterative image warping and inpainting, MVDiffusion concurrently generates all images with a global awareness, encompassing high resolution and rich content, effectively addressing the error accumulation prevalent in preceding models. MVDiffusion specifically incorporates a correspondence-aware attention mechanism, enabling effective cross-view interaction. This mechanism underpins three pivotal modules: 1) a generation module that produces low-resolution images while maintaining global correspondence, 2) an interpolation module that densifies spatial coverage between images, and 3) a super-resolution module that upscales into high-resolution outputs. In terms of panoramic imagery, MVDiffusion can generate high-resolution photorealistic images up to 1024$\times$1024 pixels. For geometry-conditioned multi-view image generation, MVDiffusion demonstrates the first method capable of generating a textured map of a scene mesh. The project page is at https://mvdiffusion.github.io.
Abstract（参考訳）: 本稿では,パノラマ画像や多視点画像(深度マップとポーズ)など,画素対ピクセル対応が利用可能なシナリオに対して,シンプルで効果的なマルチビュー画像生成手法であるMVDiffusionを紹介する。反復的なイメージウォーピングとインペインティングに依存する以前のモデルとは異なり、mvdiffusionは、高解像度とリッチなコンテンツを含むグローバルアウェアネスを持つ全ての画像を同時に生成し、前モデルで広く普及したエラー蓄積を効果的に解決する。 MVDiffusionは特に、効果的なクロスビューインタラクションを可能にする対応対応型アテンション機構を組み込んでいる。このメカニズムは3つの重要なモジュールを支える。 1)グローバル対応を維持しつつ低解像度画像を生成する生成モジュール 2)画像間の空間被覆を拡大する補間モジュール及び 3) 高解像度出力にスケールアップ可能なスーパーレゾリューションモジュール。パノラマ画像に関しては、mvdiffusionは1024$\times$1024ピクセルの高解像度フォトリアリスティック画像を生成することができる。幾何条件のマルチビュー画像生成では、MVDiffusionはシーンメッシュのテクスチャマップを生成する最初の方法を示す。プロジェクトページはhttps://mvdiffusion.github.ioにある。

関連論文リスト

Auto-Regressively Generating Multi-View Consistent Images [10.513203377236744]
任意のプロンプトから一貫したマルチビュー画像を生成するためのマルチビュー自動回帰(textbfMV-AR)手法を提案する。広範に分離されたビューを生成する場合、MV-ARは以前のビューを全て利用して効果的な参照情報を抽出することができる。一貫して一貫したマルチビュー画像を生成するMV-ARの性能と汎用性を示す実験を行った。
論文参考訳（メタデータ） (2025-06-23T11:28:37Z)
MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention [83.56588173102594]
1024x1024解像度でのトレーニングを可能にするメッシュアテンションというソリューションを導入しました。このアプローチは、クロスビュー一貫性を維持しながら、マルチビューアテンションの複雑さを著しく低減します。この基盤の上にメッシュアテンションブロックを設計し、キーポイント条件付けと組み合わせて、人間固有のマルチビュー拡散モデルMEATを作成します。
論文参考訳（メタデータ） (2025-03-11T17:50:59Z)
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion [27.836518920611557]
本稿では,新しい視点から画像や深度マップを直接生成できる拡散型アーキテクチャMVGDを紹介する。このモデルは、公開データセットから6000万以上のマルチビューサンプルを収集した上でトレーニングします。複数の新しいビュー合成ベンチマーク、マルチビューステレオおよびビデオ深度推定における最先端結果について報告する。
論文参考訳（メタデータ） (2025-01-30T23:43:06Z)
CubeDiff: Repurposing Diffusion-Based Image Models for Panorama Generation [59.257513664564996]
テキストプロンプトや画像から360度パノラマを生成する新しい手法を提案する。我々は多視点拡散モデルを用いて立方体の6つの面を合成する。本モデルでは,テキストのきめ細かい制御,高解像度パノラマ画像の生成,トレーニングセットを越えた一般化を実現している。
論文参考訳（メタデータ） (2025-01-28T18:59:49Z)
A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文参考訳（メタデータ） (2024-11-04T08:50:16Z)
From Bird's-Eye to Street View: Crafting Diverse and Condition-Aligned Images with Latent Diffusion Model [16.716345249091408]
我々は,バード・アイビューの生成を探索し,BEVマップを対応する多視点ストリートイメージに変換する。提案手法は,ニューラルビュー変換とストリート画像生成の2つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2024-09-02T07:47:16Z)
Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文参考訳（メタデータ） (2024-08-26T04:56:41Z)
Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-12T21:44:04Z)
Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention [87.02613021058484]
単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。 Era3Dは、最大512*512の解像度で高品質なマルチビュー画像を生成し、複雑さを12倍に削減する。
論文参考訳（メタデータ） (2024-05-19T17:13:16Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
SinMPI: Novel View Synthesis from a Single Image with Expanded Multiplane Images [22.902506592749816]
本稿では,拡張多面体画像(MPI)を3次元シーン表現として利用する新しい手法であるSinMPIを提案する。我々の手法の鍵となる考え方は、ビュー外のコンテンツを生成するために、安定拡散を使用することである。本手法の最先端性を検証するために,定性的および定量的な実験が実施されている。
論文参考訳（メタデータ） (2023-12-18T09:16:30Z)
EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion [60.30030562932703]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。 16枚のマルチビュー画像をわずか12秒で生成する。品質評価の指標では、以前の手法を上回ります。
論文参考訳（メタデータ） (2023-12-11T05:20:52Z)
Bridging the Visual Gap: Wide-Range Image Blending [16.464837892640812]
広域画像ブレンドを実現するための効果的なディープラーニングモデルを提案する。提案手法が視覚的に魅力的な結果をもたらすことを実験的に実証した。
論文参考訳（メタデータ） (2021-03-28T15:07:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。