論文の概要: Geometry-Free View Synthesis: Transformers and no 3D Priors
- arxiv url: http://arxiv.org/abs/2104.07652v1
- Date: Thu, 15 Apr 2021 17:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 14:54:30.073511
- Title: Geometry-Free View Synthesis: Transformers and no 3D Priors
- Title(参考訳): 幾何フリービュー合成:トランスフォーマーと3dプリエントなし
- Authors: Robin Rombach and Patrick Esser and Bj\"orn Ommer
- Abstract要約: トランスフォーマーモデルでは,手作業による3次元バイアスを伴わずに全く新しいビューを合成できることを示す。
i)ソースビューとターゲットビューの長距離3D対応を暗黙的に学習するグローバルアテンションメカニズムによって実現される。
- 参考スコア(独自算出の注目度): 16.86600007830682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Is a geometric model required to synthesize novel views from a single image?
Being bound to local convolutions, CNNs need explicit 3D biases to model
geometric transformations. In contrast, we demonstrate that a transformer-based
model can synthesize entirely novel views without any hand-engineered 3D
biases. This is achieved by (i) a global attention mechanism for implicitly
learning long-range 3D correspondences between source and target views, and
(ii) a probabilistic formulation necessary to capture the ambiguity inherent in
predicting novel views from a single image, thereby overcoming the limitations
of previous approaches that are restricted to relatively small viewpoint
changes. We evaluate various ways to integrate 3D priors into a transformer
architecture. However, our experiments show that no such geometric priors are
required and that the transformer is capable of implicitly learning 3D
relationships between images. Furthermore, this approach outperforms the state
of the art in terms of visual quality while covering the full distribution of
possible realizations. Code is available at https://git.io/JOnwn
- Abstract(参考訳): 一つの画像から新しいビューを合成するのに幾何モデルが必要か?
局所畳み込みと結びついたcnnは、幾何学的変換をモデル化するために明示的な3次元バイアスを必要とする。
対照的に,トランスフォーマーモデルでは,手作業による3次元バイアスを伴わずに全く新しいビューを合成できることを実証する。
i) ソースビューとターゲットビューの間の長距離3d対応を暗黙的に学習するグローバルアテンション機構と、(ii) 1つの画像から新しいビューを予測するのに固有の曖昧さを捉えるために必要な確率的定式化により、比較的小さな視点の変化に制限された以前のアプローチの限界を克服する。
我々は3Dプリエントをトランスフォーマーアーキテクチャに統合する様々な方法を評価する。
しかし, 実験の結果, このような幾何学的先行は不要であり, 変換器は画像間の3次元関係を暗黙的に学習できることがわかった。
さらに,本手法は,実現可能な実現可能性の全分布を網羅しながら,視覚的品質の観点から技術状況よりも優れる。
コードはhttps://git.io/JOnwnで入手できる。
関連論文リスト
- Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - Multiple View Geometry Transformers for 3D Human Pose Estimation [35.26756920323391]
多視点人間のポーズ推定におけるトランスフォーマーの3次元推論能力の向上を目指す。
本稿では,一連の幾何学的および外観的モジュールを反復的に構成した新しいハイブリッドモデルMVGFormerを提案する。
論文 参考訳(メタデータ) (2023-11-18T06:32:40Z) - SparseFusion: Distilling View-conditioned Diffusion for 3D
Reconstruction [26.165314261806603]
ニューラルレンダリングと確率的画像生成の最近の進歩を統一したスパースビュー3次元再構成手法であるスパースフュージョンを提案する。
既存のアプローチは、通常、再プロジェクションされた機能を持つニューラルレンダリングの上に構築されるが、目に見えない領域を生成したり、大きな視点の変化の下で不確実性に対処できない。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Disentangled3D: Learning a 3D Generative Model with Disentangled
Geometry and Appearance from Monocular Images [94.49117671450531]
最先端の3D生成モデルは、合成に神経的な3Dボリューム表現を使用するGANである。
本稿では,単分子観察だけで物体の絡み合ったモデルを学ぶことができる3D GANを設計する。
論文 参考訳(メタデータ) (2022-03-29T22:03:18Z) - PixelSynth: Generating a 3D-Consistent Experience from a Single Image [30.64117903216323]
本稿では, 自己回帰モデルを用いて3次元推論を融合させ, 大規模視界変化を3次元連続的に表現する手法を提案する。
本研究では,多種多様な方法と可能な変種と比較して,単一画像大角ビュー合成結果の大幅な改善を示す。
論文 参考訳(メタデータ) (2021-08-12T17:59:31Z) - AUTO3D: Novel view synthesis through unsupervisely learned variational
viewpoint and global 3D representation [27.163052958878776]
本稿では,ポーズ・インスペクションを伴わない単一の2次元画像から学習に基づく新規ビュー・シンセサイザーを目標とする。
本研究では,学習済みの相対的目的/回転と暗黙的グローバルな3次元表現を両立させるために,エンドツーエンドの訓練可能な条件変分フレームワークを構築した。
本システムでは,3次元再構成を明示的に行うことなく,暗黙的に3次元理解を行うことができる。
論文 参考訳(メタデータ) (2020-07-13T18:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。