論文の概要: Quark: Real-time, High-resolution, and General Neural View Synthesis
- arxiv url: http://arxiv.org/abs/2411.16680v1
- Date: Mon, 25 Nov 2024 18:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:10.005820
- Title: Quark: Real-time, High-resolution, and General Neural View Synthesis
- Title(参考訳): Quark: リアルタイム, 高解像度, 汎用的なニューラルビュー合成
- Authors: John Flynn, Michael Broxton, Lukas Murmann, Lucy Chai, Matthew DuVall, Clément Godard, Kathryn Heal, Srinivas Kaza, Stephen Lombardi, Xuan Luo, Supreeth Achar, Kira Prabhu, Tiancheng Sun, Lynn Tsai, Ryan Overbeck,
- Abstract要約: 本稿では,高品質,高解像度,リアルタイムの新規ビュー合成を実現するためのニューラルアルゴリズムを提案する。
入力されたRGB画像やビデオストリームのスパースセットから、3Dシーンを再構築し、NVIDIA A100上で1080pの解像度で新しいビューを30fpsでレンダリングします。
- 参考スコア(独自算出の注目度): 14.614589047064191
- License:
- Abstract: We present a novel neural algorithm for performing high-quality, high-resolution, real-time novel view synthesis. From a sparse set of input RGB images or videos streams, our network both reconstructs the 3D scene and renders novel views at 1080p resolution at 30fps on an NVIDIA A100. Our feed-forward network generalizes across a wide variety of datasets and scenes and produces state-of-the-art quality for a real-time method. Our quality approaches, and in some cases surpasses, the quality of some of the top offline methods. In order to achieve these results we use a novel combination of several key concepts, and tie them together into a cohesive and effective algorithm. We build on previous works that represent the scene using semi-transparent layers and use an iterative learned render-and-refine approach to improve those layers. Instead of flat layers, our method reconstructs layered depth maps (LDMs) that efficiently represent scenes with complex depth and occlusions. The iterative update steps are embedded in a multi-scale, UNet-style architecture to perform as much compute as possible at reduced resolution. Within each update step, to better aggregate the information from multiple input views, we use a specialized Transformer-based network component. This allows the majority of the per-input image processing to be performed in the input image space, as opposed to layer space, further increasing efficiency. Finally, due to the real-time nature of our reconstruction and rendering, we dynamically create and discard the internal 3D geometry for each frame, generating the LDM for each view. Taken together, this produces a novel and effective algorithm for view synthesis. Through extensive evaluation, we demonstrate that we achieve state-of-the-art quality at real-time rates. Project page: https://quark-3d.github.io/
- Abstract(参考訳): 本稿では,高品質,高解像度,リアルタイムの新規ビュー合成を実現するためのニューラルアルゴリズムを提案する。
入力されたRGB画像やビデオストリームのスパースセットから、3Dシーンを再構築し、NVIDIA A100上で1080pの解像度で新しいビューを30fpsでレンダリングします。
フィードフォワードネットワークは,さまざまなデータセットやシーンにまたがって一般化し,リアルタイム手法の最先端品質を実現する。
私たちの品質アプローチは、いくつかのケースでは、上位のオフラインメソッドの品質を超越しています。
これらの結果を達成するために、我々はいくつかの重要な概念の新たな組み合わせを使用し、それらを結合的で効果的なアルゴリズムに結びつける。
半透明なレイヤを使用してシーンを表現し、それらのレイヤを改善するために反復的に学習されたレンダリング・アンド・リファインなアプローチを使用します。
本手法は,平らな層ではなく,複雑な深度と閉塞のシーンを効率的に表現する層状深度マップ (LDM) を再構成する。
反復的な更新ステップは、マルチスケールのUNetスタイルのアーキテクチャに埋め込まれ、解像度の低減で可能な限り多くの計算を実行する。
各更新ステップ内では、複数の入力ビューから情報をよりよく集約するために、特殊なTransformerベースのネットワークコンポーネントを使用します。
これにより、入力された画像空間のほとんどの処理は、層空間とは対照的に、入力された画像空間で実行され、さらに効率が向上する。
最後に、再構成とレンダリングのリアルタイム性から、フレームごとに内部3D形状を動的に作成・破棄し、ビュー毎にLCMを生成する。
組み合わせることで、ビュー合成のための新しく効果的なアルゴリズムが生み出される。
広範に評価することで、我々は最先端の品質をリアルタイムに達成できることを実証する。
プロジェクトページ: https://quark-3d.github.io/
関連論文リスト
- Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion [27.836518920611557]
本稿では,新しい視点から画像や深度マップを直接生成できる拡散型アーキテクチャMVGDを紹介する。
このモデルは、公開データセットから6000万以上のマルチビューサンプルを収集した上でトレーニングします。
複数の新しいビュー合成ベンチマーク、マルチビューステレオおよびビデオ深度推定における最先端結果について報告する。
論文 参考訳(メタデータ) (2025-01-30T23:43:06Z) - Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction [51.3632308129838]
人間のインタラクションを最小限に抑えた3次元再構成法であるTotal-Decomを提案する。
提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。
提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。
論文 参考訳(メタデータ) (2024-03-28T11:12:33Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - High-Quality 3D Face Reconstruction with Affine Convolutional Networks [21.761247036523606]
3次元顔再構成では、入力画像(例えば顔)と標準/UV出力との間の空間的ずれが特徴符号化・復号処理を非常に困難にする。
我々は、空間的に非対応な入力および出力画像を扱うCNNベースのアプローチを可能にする新しいネットワークアーキテクチャ、すなわちAffine Convolution Networksを提案する。
提案手法はパラメトリックフリーであり,512×512ピクセルの解像度で高品質な紫外線マップを生成することができる。
論文 参考訳(メタデータ) (2023-10-22T09:04:43Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Remote Sensing Novel View Synthesis with Implicit Multiplane
Representations [26.33490094119609]
暗黙的ニューラル表現の最近の進歩を活用して,新しいリモートセンシングビュー合成法を提案する。
リモートセンシング画像のオーバーヘッドと遠距離イメージングを考慮し,暗黙のマルチプレーン画像(MPI)表現とディープニューラルネットワークを組み合わせることで,3次元空間を表現する。
任意の新規ビューの画像は、再構成されたモデルに基づいて自由にレンダリングすることができる。
論文 参考訳(メタデータ) (2022-05-18T13:03:55Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。