Fugu-MT 論文翻訳(概要): Computer Vision and Deep Learning for 4D Augmented Reality

論文の概要: Computer Vision and Deep Learning for 4D Augmented Reality

arxiv url: http://arxiv.org/abs/2504.02860v1
Date: Mon, 31 Mar 2025 13:38:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-15 01:13:55.018569
Title: Computer Vision and Deep Learning for 4D Augmented Reality
Title（参考訳）: 4次元拡張現実のためのコンピュータビジョンとディープラーニング
Authors: Karthik Shivashankar,
Abstract要約: この論文は、Microsoft Mixed Realityプラットフォームで4Dビデオをレンダリングできる可能性を示している。深層学習モデルを用いた4次元映像系列の形状と外観のコンパクトな表現法を開発した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The prospect of 4D video in Extended Reality (XR) platform is huge and exciting, it opens a whole new way of human computer interaction and the way we perceive the reality and consume multimedia. In this thesis, we have shown that feasibility of rendering 4D video in Microsoft mixed reality platform. This enables us to port any 3D performance capture from CVSSP into XR product like the HoloLens device with relative ease. However, if the 3D model is too complex and is made up of millions of vertices, the data bandwidth required to port the model is a severe limitation with the current hardware and communication system. Therefore, in this project we have also developed a compact representation of both shape and appearance of the 4d video sequence using deep learning models to effectively learn the compact representation of 4D video sequence and reconstruct it without affecting the shape and appearance of the video sequence.
Abstract（参考訳）: 拡張現実(XR)プラットフォームにおける4Dビデオの展望は巨大でエキサイティングで、人間のコンピュータインタラクションの全く新しい方法と、私たちが現実を理解し、マルチメディアを消費する方法を開く。この論文では、Microsoft Mixed Realityプラットフォームで4Dビデオのレンダリングが可能であることを示してきた。これにより、CVSSPからの3DパフォーマンスキャプチャをHoloLensデバイスのようなXR製品に比較的簡単に移植できます。しかし、3Dモデルが複雑すぎて何百万もの頂点で構成されている場合、モデルを移植するために必要なデータ帯域幅は、現在のハードウェアと通信システムに対して厳しい制限となる。そこで本研究では, 深層学習モデルを用いて4次元映像シーケンスの形状と外観のコンパクトな表現を開発し, 4次元映像シーケンスのコンパクトな表現を効果的に学習し, 映像シーケンスの形状や外観に影響を与えることなく再構成する。

関連論文リスト

4DVD: Cascaded Dense-view Video Diffusion Model for High-quality 4D Content Generation [23.361360623083943]
分離された方法で4Dコンテンツを生成するビデオ拡散モデルである4DVDを提案する。 4DVDをトレーニングするために、ベンチマークからD-averseと呼ばれる動的3Dデータセットを収集します。新規なビュー合成と4次元生成の両面での最先端性能を実証する実験を行った。
論文参考訳（メタデータ） (2025-08-06T14:08:36Z)
Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization [31.956858341885436]
Video4DGenは、単一または複数の生成されたビデオから4D表現を生成するのに優れている新しいフレームワークである。 Video4DGenは、仮想現実、アニメーションなどにおけるアプリケーションのための強力なツールを提供する。
論文参考訳（メタデータ） (2025-04-05T12:13:05Z)
Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文参考訳（メタデータ） (2025-03-27T01:44:46Z)
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文参考訳（メタデータ） (2025-03-26T17:56:16Z)
4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文参考訳（メタデータ） (2024-12-30T05:30:26Z)
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文参考訳（メタデータ） (2024-12-09T17:44:56Z)
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文参考訳（メタデータ） (2024-11-27T18:57:16Z)
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion [22.11178016375823]
DimensionXは、ビデオ拡散を伴う単一の画像から3Dと4Dのシーンを生成するように設計されたフレームワークである。提案手法は,3次元シーンの空間構造と4次元シーンの時間的進化の両方が,映像フレームのシーケンスを通して効果的に表現できるという知見から始まった。
論文参考訳（メタデータ） (2024-11-07T18:07:31Z)
GenXD: Generating Any 3D and 4D Scenes [137.5455092319533]
本稿では,日常的によく見られるカメラと物体の動きを利用して,一般的な3Dと4Dの生成を共同で調査することを提案する。すべての3Dおよび4Dデータを活用することで、我々は、あらゆる3Dまたは4Dシーンを生成できるフレームワークであるGenXDを開発した。
論文参考訳（メタデータ） (2024-11-04T17:45:44Z)
Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文参考訳（メタデータ） (2024-10-14T17:59:59Z)
4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文参考訳（メタデータ） (2023-12-28T18:53:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。