論文の概要: Computer Vision and Deep Learning for 4D Augmented Reality
- arxiv url: http://arxiv.org/abs/2504.02860v1
- Date: Mon, 31 Mar 2025 13:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:25.327107
- Title: Computer Vision and Deep Learning for 4D Augmented Reality
- Title(参考訳): 4次元拡張現実のためのコンピュータビジョンとディープラーニング
- Authors: Karthik Shivashankar,
- Abstract要約: この論文は、Microsoft Mixed Realityプラットフォームで4Dビデオをレンダリングできる可能性を示している。
深層学習モデルを用いた4次元映像系列の形状と外観のコンパクトな表現法を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The prospect of 4D video in Extended Reality (XR) platform is huge and exciting, it opens a whole new way of human computer interaction and the way we perceive the reality and consume multimedia. In this thesis, we have shown that feasibility of rendering 4D video in Microsoft mixed reality platform. This enables us to port any 3D performance capture from CVSSP into XR product like the HoloLens device with relative ease. However, if the 3D model is too complex and is made up of millions of vertices, the data bandwidth required to port the model is a severe limitation with the current hardware and communication system. Therefore, in this project we have also developed a compact representation of both shape and appearance of the 4d video sequence using deep learning models to effectively learn the compact representation of 4D video sequence and reconstruct it without affecting the shape and appearance of the video sequence.
- Abstract(参考訳): 拡張現実(XR)プラットフォームにおける4Dビデオの展望は巨大でエキサイティングで、人間のコンピュータインタラクションの全く新しい方法と、私たちが現実を理解し、マルチメディアを消費する方法を開く。
この論文では、Microsoft Mixed Realityプラットフォームで4Dビデオのレンダリングが可能であることを示してきた。
これにより、CVSSPからの3DパフォーマンスキャプチャをHoloLensデバイスのようなXR製品に比較的簡単に移植できます。
しかし、3Dモデルが複雑すぎて何百万もの頂点で構成されている場合、モデルを移植するために必要なデータ帯域幅は、現在のハードウェアと通信システムに対して厳しい制限となる。
そこで本研究では, 深層学習モデルを用いて4次元映像シーケンスの形状と外観のコンパクトな表現を開発し, 4次元映像シーケンスのコンパクトな表現を効果的に学習し, 映像シーケンスの形状や外観に影響を与えることなく再構成する。
関連論文リスト
- GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking [38.104532522698285]
ビデオ拡散変換器(DiT)を直接訓練して4Dコンテンツを制御するには、高価なマルチビュービデオが必要である。
モノクロ・ダイナミック・ノベル・ビュー・シンセサイザー (MDVS) に触発され, 擬似4次元ガウス場を映像生成に適用した。
プレトレーニング済みのDiTを微調整して、GS-DiTと呼ばれるレンダリングされたビデオのガイダンスに従ってビデオを生成する。
論文 参考訳(メタデータ) (2025-01-05T23:55:33Z) - You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。
このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。
低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文 参考訳(メタデータ) (2024-12-09T17:44:56Z) - CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。
我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。
新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文 参考訳(メタデータ) (2024-11-27T18:57:16Z) - DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion [22.11178016375823]
DimensionXは、ビデオ拡散を伴う単一の画像から3Dと4Dのシーンを生成するように設計されたフレームワークである。
提案手法は,3次元シーンの空間構造と4次元シーンの時間的進化の両方が,映像フレームのシーケンスを通して効果的に表現できるという知見から始まった。
論文 参考訳(メタデータ) (2024-11-07T18:07:31Z) - GenXD: Generating Any 3D and 4D Scenes [137.5455092319533]
本稿では,日常的によく見られるカメラと物体の動きを利用して,一般的な3Dと4Dの生成を共同で調査することを提案する。
すべての3Dおよび4Dデータを活用することで、我々は、あらゆる3Dまたは4Dシーンを生成できるフレームワークであるGenXDを開発した。
論文 参考訳(メタデータ) (2024-11-04T17:45:44Z) - Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。
しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:59Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - 4K4D: Real-Time 4D View Synthesis at 4K Resolution [86.6582179227016]
本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに見ることを目的とする。
ハードウェア化をサポートし,前例のないレンダリング速度を実現する4Dポイントクラウド表現を提案する。
私たちの表現は、1080p解像度のDNAレンダリングデータセットで400 FPS、4090 GPUで4K解像度のENeRF-Outdoorデータセットで80 FPSでレンダリングできます。
論文 参考訳(メタデータ) (2023-10-17T17:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。