論文の概要: VistaFlow: Photorealistic Volumetric Reconstruction with Dynamic Resolution Management via Q-Learning
- arxiv url: http://arxiv.org/abs/2502.05222v1
- Date: Wed, 05 Feb 2025 20:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:09.710793
- Title: VistaFlow: Photorealistic Volumetric Reconstruction with Dynamic Resolution Management via Q-Learning
- Title(参考訳): VistaFlow:Q-Learningによる動的解像度管理によるフォトリアリスティックボリューム再構成
- Authors: Jayram Palamadai, William Yu,
- Abstract要約: VistaFlowは、2D写真の集合から完全にインタラクティブな3Dボリュームイメージを再構築できるスケーラブルなイメージング技術である。
VistaFlowは統合CPUグラフィックスで動作するため、モバイルやエントリーレベルのデバイスでも動作可能でありながら、高性能なレンダリングを実現することができる。
我々のモデルは、消費者ハードウェア上で毎秒100フレーム以上の解像度で1080pの解像度で、新しいビュー合成による最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We introduce VistaFlow, a scalable three-dimensional imaging technique capable of reconstructing fully interactive 3D volumetric images from a set of 2D photographs. Our model synthesizes novel viewpoints through a differentiable rendering system capable of dynamic resolution management on photorealistic 3D scenes. We achieve this through the introduction of QuiQ, a novel intermediate video controller trained through Q-learning to maintain a consistently high framerate by adjusting render resolution with millisecond precision. Notably, VistaFlow runs natively on integrated CPU graphics, making it viable for mobile and entry-level devices while still delivering high-performance rendering. VistaFlow bypasses Neural Radiance Fields (NeRFs), using the PlenOctree data structure to render complex light interactions such as reflection and subsurface scattering with minimal hardware requirements. Our model is capable of outperforming state-of-the-art methods with novel view synthesis at a resolution of 1080p at over 100 frames per second on consumer hardware. By tailoring render quality to the capabilities of each device, VistaFlow has the potential to improve the efficiency and accessibility of photorealistic 3D scene rendering across a wide spectrum of hardware, from high-end workstations to inexpensive microcontrollers.
- Abstract(参考訳): 本研究では,2次元画像の集合から完全にインタラクティブな3次元容積像を再構成できるスケーラブルな3次元イメージング技術であるVistaFlowを紹介する。
本モデルは,フォトリアリスティックな3Dシーンの動的解像度管理が可能なレンダリングシステムを通じて,新しい視点を合成する。
Qラーニングによってトレーニングされた新しい中間ビデオコントローラQuiQを導入し、ミリ秒精度でレンダリング解像度を調整し、一貫した高いフレームレートを維持する。
特に、VistaFlowは、統合CPUグラフィックスでネイティブに動作し、高性能なレンダリングを提供しながら、モバイルおよびエントリーレベルのデバイスで実行可能である。
VistaFlowはNeural Radiance Fields (NeRF)をバイパスし、PlenOctreeデータ構造を使用して、最小限のハードウェア要件で反射や地下散乱のような複雑な光相互作用をレンダリングする。
我々のモデルは、消費者ハードウェア上で毎秒100フレーム以上の解像度で1080pの解像度で、新しいビュー合成による最先端の手法よりも優れている。
レンダリング品質を各デバイスの能力に合わせることで、VistaFlowは、ハイエンドワークステーションから安価なマイクロコントローラに至るまで、幅広いハードウェアにわたって、フォトリアリスティックな3Dシーンレンダリングの効率性とアクセシビリティを向上させることができる。
関連論文リスト
- Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - FaceFolds: Meshed Radiance Manifolds for Efficient Volumetric Rendering of Dynamic Faces [21.946327323788275]
動的顔の3Dレンダリングは難しい問題である。
本稿では,アクターの動的顔パフォーマンスの高品質なレンダリングを可能にする新しい表現を提案する。
論文 参考訳(メタデータ) (2024-04-22T00:44:13Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - EvaSurf: Efficient View-Aware Implicit Textured Surface Reconstruction [53.28220984270622]
3次元再構成法はリアルタイムに3次元整合性のある高忠実度結果を生成する。
提案手法は,合成と実世界の両方のデータセット上で,高品質な外観と正確なメッシュを再構築することができる。
我々の方法は1つのGPUを使ってたった1~2時間でトレーニングでき、40FPS(Frames per second)以上のモバイルデバイス上で実行することができる。
論文 参考訳(メタデータ) (2023-11-16T11:30:56Z) - 3D Gaussian Splatting for Real-Time Radiance Field Rendering [4.320393382724066]
競争力のあるトレーニング時間を維持しながら、最先端の視覚的品質を達成するための3つの重要な要素を紹介します。
いくつかの確立したデータセット上で、最先端の視覚的品質とリアルタイムレンダリングを実証する。
論文 参考訳(メタデータ) (2023-08-08T06:37:06Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Immersive Neural Graphics Primitives [13.48024951446282]
我々は没入型VRのシーンをレンダリングできるNeRFベースのフレームワークを提示し、評価する。
我々のアプローチでは、毎秒30フレームのフレームレートで、1眼あたり1280×720ピクセルの解像度が得られる。
論文 参考訳(メタデータ) (2022-11-24T09:33:38Z) - FNeVR: Neural Volume Rendering for Face Animation [53.92664037596834]
本研究では,2次元モーションワープと3次元ボリュームレンダリングの可能性を探るため,FNeVRネットワークを提案する。
FNeVRでは、画像レンダリングのための顔の詳細を強化するために、FVRモジュールを設計する。
また、軽量なポーズエディタを設計し、FNeVRが簡単にかつ効果的に顔のポーズを編集できるようにする。
論文 参考訳(メタデータ) (2022-09-21T13:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。