論文の概要: MVDiffusion: Enabling Holistic Multi-view Image Generation with
Correspondence-Aware Diffusion
- arxiv url: http://arxiv.org/abs/2307.01097v3
- Date: Wed, 9 Aug 2023 04:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:08:45.102338
- Title: MVDiffusion: Enabling Holistic Multi-view Image Generation with
Correspondence-Aware Diffusion
- Title(参考訳): mvdiffusion:対応認識拡散を用いた総合的多視点画像生成の実現
- Authors: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
- Abstract要約: 本稿では,シンプルなマルチビュー画像生成手法であるMVDiffusionを紹介する。
MVDiffusionは、高解像度でリッチなコンテンツを含む、グローバルな認識を持つすべてのイメージを同時に生成する。
パノラマ画像に関しては、MVDiffusionは1024$times$1024ピクセルまでの高解像度のフォトリアリスティック画像を生成することができる。
- 参考スコア(独自算出の注目度): 30.469248153134647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MVDiffusion, a simple yet effective multi-view image
generation method for scenarios where pixel-to-pixel correspondences are
available, such as perspective crops from panorama or multi-view images given
geometry (depth maps and poses). Unlike prior models that rely on iterative
image warping and inpainting, MVDiffusion concurrently generates all images
with a global awareness, encompassing high resolution and rich content,
effectively addressing the error accumulation prevalent in preceding models.
MVDiffusion specifically incorporates a correspondence-aware attention
mechanism, enabling effective cross-view interaction. This mechanism underpins
three pivotal modules: 1) a generation module that produces low-resolution
images while maintaining global correspondence, 2) an interpolation module that
densifies spatial coverage between images, and 3) a super-resolution module
that upscales into high-resolution outputs. In terms of panoramic imagery,
MVDiffusion can generate high-resolution photorealistic images up to
1024$\times$1024 pixels. For geometry-conditioned multi-view image generation,
MVDiffusion demonstrates the first method capable of generating a textured map
of a scene mesh. The project page is at https://mvdiffusion.github.io.
- Abstract(参考訳): 本稿では,パノラマ画像や多視点画像(深度マップとポーズ)など,画素対ピクセル対応が利用可能なシナリオに対して,シンプルで効果的なマルチビュー画像生成手法であるMVDiffusionを紹介する。
反復的なイメージウォーピングとインペインティングに依存する以前のモデルとは異なり、mvdiffusionは、高解像度とリッチなコンテンツを含むグローバルアウェアネスを持つ全ての画像を同時に生成し、前モデルで広く普及したエラー蓄積を効果的に解決する。
MVDiffusionは特に、効果的なクロスビューインタラクションを可能にする対応対応型アテンション機構を組み込んでいる。
このメカニズムは3つの重要なモジュールを支える。
1)グローバル対応を維持しつつ低解像度画像を生成する生成モジュール
2)画像間の空間被覆を拡大する補間モジュール及び
3) 高解像度出力にスケールアップ可能なスーパーレゾリューションモジュール。
パノラマ画像に関しては、mvdiffusionは1024$\times$1024ピクセルの高解像度フォトリアリスティック画像を生成することができる。
幾何条件のマルチビュー画像生成では、MVDiffusionはシーンメッシュのテクスチャマップを生成する最初の方法を示す。
プロジェクトページはhttps://mvdiffusion.github.ioにある。
関連論文リスト
- Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration [7.087475633143941]
MM-Diffはチューニング不要な画像パーソナライズフレームワークで、単写体と複数体の高忠実度画像を数秒で生成できる。
MM-Diff は視覚エンコーダを用いて入力画像を CLS に変換し、埋め込みをパッチする。
一方、CLS埋め込みはテキスト埋め込みを強化するために使用され、一方、パッチ埋め込みと共に、少数の詳細に富んだ主題埋め込みを導出する。
論文 参考訳(メタデータ) (2024-03-22T09:32:31Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - SinMPI: Novel View Synthesis from a Single Image with Expanded
Multiplane Images [22.902506592749816]
本稿では,拡張多面体画像(MPI)を3次元シーン表現として利用する新しい手法であるSinMPIを提案する。
我々の手法の鍵となる考え方は、ビュー外のコンテンツを生成するために、安定拡散を使用することである。
本手法の最先端性を検証するために,定性的および定量的な実験が実施されている。
論文 参考訳(メタデータ) (2023-12-18T09:16:30Z) - EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion [60.30030562932703]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。
16枚のマルチビュー画像をわずか12秒で生成する。
品質評価の指標では、以前の手法を上回ります。
論文 参考訳(メタデータ) (2023-12-11T05:20:52Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - ViCE: Self-Supervised Visual Concept Embeddings as Contextual and Pixel
Appearance Invariant Semantic Representations [77.3590853897664]
本研究は,NLPにおける単語埋め込みの学習方法に着想を得た画像に対して,意味論的にリッチな視覚埋め込みを学習するための自己指導的手法を提案する。
論文 参考訳(メタデータ) (2021-11-24T12:27:30Z) - Bridging the Visual Gap: Wide-Range Image Blending [16.464837892640812]
広域画像ブレンドを実現するための効果的なディープラーニングモデルを提案する。
提案手法が視覚的に魅力的な結果をもたらすことを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-28T15:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。