論文の概要: SPAD : Spatially Aware Multiview Diffusers
- arxiv url: http://arxiv.org/abs/2402.05235v1
- Date: Wed, 7 Feb 2024 20:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:19:24.109663
- Title: SPAD : Spatially Aware Multiview Diffusers
- Title(参考訳): SPAD : 空間認識型マルチビューディフューザ
- Authors: Yash Kant, Ziyi Wu, Michael Vasilkovsky, Guocheng Qian, Jian Ren, Riza
Alp Guler, Bernard Ghanem, Sergey Tulyakov, Igor Gilitschenski, Aliaksandr
Siarohin
- Abstract要約: テキストプロンプトや単一画像から一貫したマルチビュー画像を作成するための新しいアプローチであるSPADを提案する。
固定方位と高度でしかビューを生成できない最近の作品とは対照的に、SPADはフルカメラコントロールを提供し、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 86.18607017877657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SPAD, a novel approach for creating consistent multi-view images
from text prompts or single images. To enable multi-view generation, we
repurpose a pretrained 2D diffusion model by extending its self-attention
layers with cross-view interactions, and fine-tune it on a high quality subset
of Objaverse. We find that a naive extension of the self-attention proposed in
prior work (e.g. MVDream) leads to content copying between views. Therefore, we
explicitly constrain the cross-view attention based on epipolar geometry. To
further enhance 3D consistency, we utilize Plucker coordinates derived from
camera rays and inject them as positional encoding. This enables SPAD to reason
over spatial proximity in 3D well. In contrast to recent works that can only
generate views at fixed azimuth and elevation, SPAD offers full camera control
and achieves state-of-the-art results in novel view synthesis on unseen objects
from the Objaverse and Google Scanned Objects datasets. Finally, we demonstrate
that text-to-3D generation using SPAD prevents the multi-face Janus issue. See
more details at our webpage: https://yashkant.github.io/spad
- Abstract(参考訳): テキストプロンプトや単一画像から一貫したマルチビュー画像を作成する新しいアプローチであるSPADを提案する。
マルチビュー生成を実現するために,クロスビューインタラクションで自己アテンション層を拡張することで,事前学習した2次元拡散モデルを再利用し,Objaverseの高品質サブセットに微調整する。
先行研究 (mvdream など) で提案された自己愛のナイーブな拡張は、ビュー間のコンテンツのコピーにつながる。
そこで我々は,エピポーラ幾何学に基づくクロスビューの注意を明示的に制限する。
3次元の一貫性をさらに高めるため,カメラ線由来のplucker座標を用いて位置符号化を行う。
これにより、SPADは3次元の空間的近接を推論できる。
一定の方位と標高でしかビューを生成できない最近の作品とは対照的に、spadは完全なカメラ制御を提供し、objaverseおよびgoogle scanned objectsデータセットから見えないオブジェクトの新たなビュー合成を実現する。
最後に,SPADを用いたテキスト・ツー・3D生成は,複数面のJanus問題を防ぐことを実証する。
詳細は私たちのWebページを参照してください。
関連論文リスト
- Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap
Between Text-to-2D and Text-to-3D Generation [64.12848271290119]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [82.56898294603785]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - iNVS: Repurposing Diffusion Inpainters for Novel View Synthesis [45.88928345042103]
単一ソース画像から一貫した新しいビューを生成する方法を提案する。
本手法は,画像からの可視画素の再利用を最大化することに焦点を当てる。
我々は、光源ビューからターゲットビューへ可視画素を転送する単眼深度推定器を用いる。
論文 参考訳(メタデータ) (2023-10-24T20:33:19Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。