Fugu-MT 論文翻訳(概要): MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion

論文の概要: MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion

arxiv url: http://arxiv.org/abs/2307.01097v5
Date: Sun, 12 Nov 2023 03:20:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 21:14:41.138281
Title: MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion
Title（参考訳）: mvdiffusion:対応認識拡散を用いた総合的多視点画像生成の実現
Authors: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
Abstract要約: 本稿では,一貫したマルチビュー画像を生成するためのシンプルで効果的なMVDiffusionを提案する。 MVDiffusionはそのコアとは異なり、事前訓練された画像認識を伴う視点認識の視点画像を処理する。 MVDiffusionは同時にすべての画像をグローバルに生成し、一般的なエラーの蓄積に効果的に対処する。
参考スコア（独自算出の注目度）: 26.582847694092884
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces MVDiffusion, a simple yet effective method for generating consistent multi-view images from text prompts given pixel-to-pixel correspondences (e.g., perspective crops from a panorama or multi-view images given depth maps and poses). Unlike prior methods that rely on iterative image warping and inpainting, MVDiffusion simultaneously generates all images with a global awareness, effectively addressing the prevalent error accumulation issue. At its core, MVDiffusion processes perspective images in parallel with a pre-trained text-to-image diffusion model, while integrating novel correspondence-aware attention layers to facilitate cross-view interactions. For panorama generation, while only trained with 10k panoramas, MVDiffusion is able to generate high-resolution photorealistic images for arbitrary texts or extrapolate one perspective image to a 360-degree view. For multi-view depth-to-image generation, MVDiffusion demonstrates state-of-the-art performance for texturing a scene mesh. The project page is at https://mvdiffusion.github.io/.
Abstract（参考訳）: 本稿では,画素間対応が与えられたテキストプロンプト(例えば,パノラマからの視点作物や深度マップやポーズが与えられたマルチビュー画像など)から一貫したマルチビュー画像を生成する,単純かつ効果的な手法であるmvdiffusionを提案する。反復的な画像ワープや塗装に依存する従来の方法とは異なり、MVDiffusionはグローバルな認識で全ての画像を同時に生成する。 MVDiffusionのコアとなるのは、事前訓練されたテキスト-画像拡散モデルと平行に視点画像を処理し、新しい対応対応型アテンション層を統合して、クロスビューインタラクションを容易にすることである。パノラマ生成では、10kパノラマでしか訓練されていないが、MVDiffusionは任意のテキストに対して高解像度のフォトリアリスティック画像を生成することができる。多視点深度画像生成では、MVDiffusionはシーンメッシュのテクスチャ化のための最先端性能を示す。プロジェクトページはhttps://mvdiffusion.github.io/にある。

関連論文リスト

Auto-Regressively Generating Multi-View Consistent Images [10.513203377236744]
任意のプロンプトから一貫したマルチビュー画像を生成するためのマルチビュー自動回帰(textbfMV-AR)手法を提案する。広範に分離されたビューを生成する場合、MV-ARは以前のビューを全て利用して効果的な参照情報を抽出することができる。一貫して一貫したマルチビュー画像を生成するMV-ARの性能と汎用性を示す実験を行った。
論文参考訳（メタデータ） (2025-06-23T11:28:37Z)
MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention [83.56588173102594]
1024x1024解像度でのトレーニングを可能にするメッシュアテンションというソリューションを導入しました。このアプローチは、クロスビュー一貫性を維持しながら、マルチビューアテンションの複雑さを著しく低減します。この基盤の上にメッシュアテンションブロックを設計し、キーポイント条件付けと組み合わせて、人間固有のマルチビュー拡散モデルMEATを作成します。
論文参考訳（メタデータ） (2025-03-11T17:50:59Z)
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion [27.836518920611557]
本稿では,新しい視点から画像や深度マップを直接生成できる拡散型アーキテクチャMVGDを紹介する。このモデルは、公開データセットから6000万以上のマルチビューサンプルを収集した上でトレーニングします。複数の新しいビュー合成ベンチマーク、マルチビューステレオおよびビデオ深度推定における最先端結果について報告する。
論文参考訳（メタデータ） (2025-01-30T23:43:06Z)
CubeDiff: Repurposing Diffusion-Based Image Models for Panorama Generation [59.257513664564996]
テキストプロンプトや画像から360度パノラマを生成する新しい手法を提案する。我々は多視点拡散モデルを用いて立方体の6つの面を合成する。本モデルでは,テキストのきめ細かい制御,高解像度パノラマ画像の生成,トレーニングセットを越えた一般化を実現している。
論文参考訳（メタデータ） (2025-01-28T18:59:49Z)
A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文参考訳（メタデータ） (2024-11-04T08:50:16Z)
From Bird's-Eye to Street View: Crafting Diverse and Condition-Aligned Images with Latent Diffusion Model [16.716345249091408]
我々は,バード・アイビューの生成を探索し,BEVマップを対応する多視点ストリートイメージに変換する。提案手法は,ニューラルビュー変換とストリート画像生成の2つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2024-09-02T07:47:16Z)
Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文参考訳（メタデータ） (2024-08-26T04:56:41Z)
Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-12T21:44:04Z)
Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention [87.02613021058484]
単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。 Era3Dは、最大512*512の解像度で高品質なマルチビュー画像を生成し、複雑さを12倍に削減する。
論文参考訳（メタデータ） (2024-05-19T17:13:16Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
SinMPI: Novel View Synthesis from a Single Image with Expanded Multiplane Images [22.902506592749816]
本稿では,拡張多面体画像(MPI)を3次元シーン表現として利用する新しい手法であるSinMPIを提案する。我々の手法の鍵となる考え方は、ビュー外のコンテンツを生成するために、安定拡散を使用することである。本手法の最先端性を検証するために,定性的および定量的な実験が実施されている。
論文参考訳（メタデータ） (2023-12-18T09:16:30Z)
EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion [60.30030562932703]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。 16枚のマルチビュー画像をわずか12秒で生成する。品質評価の指標では、以前の手法を上回ります。
論文参考訳（メタデータ） (2023-12-11T05:20:52Z)
Bridging the Visual Gap: Wide-Range Image Blending [16.464837892640812]
広域画像ブレンドを実現するための効果的なディープラーニングモデルを提案する。提案手法が視覚的に魅力的な結果をもたらすことを実験的に実証した。
論文参考訳（メタデータ） (2021-03-28T15:07:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。