論文の概要: SPAD : Spatially Aware Multiview Diffusers
- arxiv url: http://arxiv.org/abs/2402.05235v1
- Date: Wed, 7 Feb 2024 20:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:19:24.109663
- Title: SPAD : Spatially Aware Multiview Diffusers
- Title(参考訳): SPAD : 空間認識型マルチビューディフューザ
- Authors: Yash Kant, Ziyi Wu, Michael Vasilkovsky, Guocheng Qian, Jian Ren, Riza
Alp Guler, Bernard Ghanem, Sergey Tulyakov, Igor Gilitschenski, Aliaksandr
Siarohin
- Abstract要約: テキストプロンプトや単一画像から一貫したマルチビュー画像を作成するための新しいアプローチであるSPADを提案する。
固定方位と高度でしかビューを生成できない最近の作品とは対照的に、SPADはフルカメラコントロールを提供し、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 86.18607017877657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SPAD, a novel approach for creating consistent multi-view images
from text prompts or single images. To enable multi-view generation, we
repurpose a pretrained 2D diffusion model by extending its self-attention
layers with cross-view interactions, and fine-tune it on a high quality subset
of Objaverse. We find that a naive extension of the self-attention proposed in
prior work (e.g. MVDream) leads to content copying between views. Therefore, we
explicitly constrain the cross-view attention based on epipolar geometry. To
further enhance 3D consistency, we utilize Plucker coordinates derived from
camera rays and inject them as positional encoding. This enables SPAD to reason
over spatial proximity in 3D well. In contrast to recent works that can only
generate views at fixed azimuth and elevation, SPAD offers full camera control
and achieves state-of-the-art results in novel view synthesis on unseen objects
from the Objaverse and Google Scanned Objects datasets. Finally, we demonstrate
that text-to-3D generation using SPAD prevents the multi-face Janus issue. See
more details at our webpage: https://yashkant.github.io/spad
- Abstract(参考訳): テキストプロンプトや単一画像から一貫したマルチビュー画像を作成する新しいアプローチであるSPADを提案する。
マルチビュー生成を実現するために,クロスビューインタラクションで自己アテンション層を拡張することで,事前学習した2次元拡散モデルを再利用し,Objaverseの高品質サブセットに微調整する。
先行研究 (mvdream など) で提案された自己愛のナイーブな拡張は、ビュー間のコンテンツのコピーにつながる。
そこで我々は,エピポーラ幾何学に基づくクロスビューの注意を明示的に制限する。
3次元の一貫性をさらに高めるため,カメラ線由来のplucker座標を用いて位置符号化を行う。
これにより、SPADは3次元の空間的近接を推論できる。
一定の方位と標高でしかビューを生成できない最近の作品とは対照的に、spadは完全なカメラ制御を提供し、objaverseおよびgoogle scanned objectsデータセットから見えないオブジェクトの新たなビュー合成を実現する。
最後に,SPADを用いたテキスト・ツー・3D生成は,複数面のJanus問題を防ぐことを実証する。
詳細は私たちのWebページを参照してください。
関連論文リスト
- Vista3D: Unravel the 3D Darkside of a Single Image [64.00066024235088]
Vista3Dは、わずか5分で素早く一貫した3D生成を実現するフレームワークである。
粗い位相では、1つの画像からガウススプラッティングで初期幾何学を高速に生成する。
2つの独立な暗黙関数を持つ非絡み合った表現を使用することで、生成の質を高める。
論文 参考訳(メタデータ) (2024-09-18T17:59:44Z) - Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding [16.50466940644004]
入力としてCLIPを埋め込んだ画像のみを取り込む画像から3D生成パイプラインであるIsotropic3Dを提案する。
等方性3Dは、最適化をSDS損失のみを静止させることで、方位角の等方性w.r.t.にすることができる。
論文 参考訳(メタデータ) (2024-03-15T15:27:58Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - iNVS: Repurposing Diffusion Inpainters for Novel View Synthesis [45.88928345042103]
単一ソース画像から一貫した新しいビューを生成する方法を提案する。
本手法は,画像からの可視画素の再利用を最大化することに焦点を当てる。
我々は、光源ビューからターゲットビューへ可視画素を転送する単眼深度推定器を用いる。
論文 参考訳(メタデータ) (2023-10-24T20:33:19Z) - IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts [90.49024750432139]
IPDreamerは複雑な$textbfI$mage $textbfP$romptsから複雑な外観特徴をキャプチャし、合成した3Dオブジェクトをこれらの特徴と整合させる。
IPDreamerはテキストと複雑な画像のプロンプトに整合した高品質な3Dオブジェクトを一貫して生成することを示した。
論文 参考訳(メタデータ) (2023-10-09T03:11:08Z) - Viewpoint Textual Inversion: Discovering Scene Representations and 3D View Control in 2D Diffusion Models [4.036372578802888]
安定拡散のようなモデルのテキスト埋め込み空間において,特定の3次元シーン表現が符号化されていることを示す。
我々は,3次元視覚タスク,すなわちビュー制御されたテキスト・ツー・イメージ生成,および単一画像からの新規なビュー合成に3次元シーン表現を利用する。
論文 参考訳(メタデータ) (2023-09-14T18:52:16Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。