Fugu-MT 論文翻訳(概要): Learning to compose 6-DoF omnidirectional videos using multi-sphere images

論文の概要: Learning to compose 6-DoF omnidirectional videos using multi-sphere images

arxiv url: http://arxiv.org/abs/2103.05842v1
Date: Wed, 10 Mar 2021 03:09:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-12 11:01:37.820630
Title: Learning to compose 6-DoF omnidirectional videos using multi-sphere images
Title（参考訳）: 多球画像を用いた6-DoF全方位映像の構成学習
Authors: Jisheng Li, Yuze He, Yubin Hu, Yuxing Han, Jiangtao Wen
Abstract要約: 本研究では,3D ConvNet を用いて,6-DoF VR で体験可能な多球面画像表現を生成するシステムを提案する。このシステムは、深度マップやセグメンテーションマスクを必要とせずに、従来の全方向VRカメラの映像を直接利用します。高品質なアーティファクトフリー6-DoFコンテンツに対する基礎的真理生成手法を提案し,研究・開発コミュニティで利用することができる。
参考スコア（独自算出の注目度）: 16.423725132964776
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Omnidirectional video is an essential component of Virtual Reality. Although various methods have been proposed to generate content that can be viewed with six degrees of freedom (6-DoF), existing systems usually involve complex depth estimation, image in-painting or stitching pre-processing. In this paper, we propose a system that uses a 3D ConvNet to generate a multi-sphere images (MSI) representation that can be experienced in 6-DoF VR. The system utilizes conventional omnidirectional VR camera footage directly without the need for a depth map or segmentation mask, thereby significantly simplifying the overall complexity of the 6-DoF omnidirectional video composition. By using a newly designed weighted sphere sweep volume (WSSV) fusing technique, our approach is compatible with most panoramic VR camera setups. A ground truth generation approach for high-quality artifact-free 6-DoF contents is proposed and can be used by the research and development community for 6-DoF content generation.
Abstract（参考訳）: Omnidirectional VideoはVirtual Realityの重要なコンポーネントである。 6自由度 (6-dof) で見ることのできるコンテンツを生成するために様々な方法が提案されているが、既存のシステムは通常、複雑な深度推定、画像のインペインティング、前処理を含む。本論文では,3D ConvNetを用いて6-DoF VRで体験できる多球画像(MSI)表現を生成するシステムを提案する。このシステムは、奥行きマップやセグメンテーションマスクを必要とせずに、従来の全方向VRカメラの映像を直接利用し、6-DoF全方向ビデオ合成の全体的な複雑さを大幅に単純化する。新たに設計されたfeeded sphere sweep volume (wssv) fusing技術を使えば、ほとんどのパノラマvrカメラのセットアップと互換性がある。高品質なアーティファクトフリーな6-dofコンテンツに対する基礎的真理生成手法を提案し,研究開発コミュニティによる6-dofコンテンツ生成に利用可能である。

関連論文リスト

FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文参考訳（メタデータ） (2025-03-29T14:26:06Z)
Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文参考訳（メタデータ） (2025-03-27T01:44:46Z)
ImViD: Immersive Volumetric Videos for Enhanced VR Engagement [34.450247091615395]
VR/AR技術の次のフロンティアは、完全なシーンキャプチャー、大きな6-DoFインタラクションスペース、マルチモーダルフィードバック、高解像度とフレームレートのコンテンツを備えた没入型ボリュームビデオである。完全空間指向データキャプチャと様々な屋内/屋外シナリオを備えたマルチビューマルチモーダルデータセットであるImViDを紹介する。我々のキャプチャリグは、移動中のマルチビュービデオオーディオキャプチャをサポートし、データの完全性、柔軟性、効率を大幅に向上させる。
論文参考訳（メタデータ） (2025-03-18T15:42:22Z)
T-SVG: Text-Driven Stereoscopic Video Generation [87.62286959918566]
本稿では,テキスト駆動ステレオビデオ生成(T-SVG)システムを紹介する。テキストプロンプトを使用してビデオ生成を合理化し、参照ビデオを作成する。これらのビデオは、3Dポイントのクラウドシーケンスに変換され、微妙なパララックス差のある2つの視点からレンダリングされる。
論文参考訳（メタデータ） (2024-12-12T14:48:46Z)
GFlow: Recovering 4D World from Monocular Video [58.63051670458107]
GFlowは、ビデオ(3D)を4次元の明示的な表現に持ち上げるフレームワークで、空間と時間を通してガウスのスプラッティングの流れを包含する。 GFlowはまずシーンを静止部分と移動部分にクラスタリングし、逐次最適化プロセスを適用する。 GFlowは、単なる4D再構築の境界を超越する。
論文参考訳（メタデータ） (2024-05-28T17:59:22Z)
MSI-NeRF: Linking Omni-Depth with View Synthesis through Multi-Sphere Image aided Generalizable Neural Radiance Field [1.3162012586770577]
深層学習全方位深度推定と新しいビュー合成を組み合わせたMSI-NeRFを提案する。入力画像の特徴抽出とワープにより,コストボリュームとして多面体画像を構築する。ネットワークには,4つの画像のみを用いて未知のシーンを効率的に再構築する一般化機能がある。
論文参考訳（メタデータ） (2024-03-16T07:26:50Z)
Den-SOFT: Dense Space-Oriented Light Field DataseT for 6-DOF Immersive Experience [28.651514326042648]
我々は,移動式マルチカメラ大空間高密度光場キャプチャシステムを構築した。本研究の目的は,一般的な3次元シーン再構築アルゴリズムの開発に貢献することである。収集されたデータセットは、既存のデータセットよりもはるかに密度が高い。
論文参考訳（メタデータ） (2024-03-15T02:39:44Z)
MuRF: Multi-Baseline Radiance Fields [117.55811938988256]
スパースビュー合成におけるフィードフォワードアプローチであるmulti-Baseline Radiance Fields(MuRF)を提案する。 MuRFは、複数の異なるベースライン設定で最先端のパフォーマンスを達成する。また、Mip-NeRF 360データセット上でゼロショットの一般化能力を示す。
論文参考訳（メタデータ） (2023-12-07T18:59:56Z)
PERF: Panoramic Neural Radiance Field from a Single Panorama [109.31072618058043]
PERFはパノラマ性神経放射場を1つのパノラマから訓練する新しいビュー合成フレームワークである。本研究では,360度2Dシーンを3Dシーンに持ち上げるために,新しい共同RGBDインペイント法とプログレッシブ・インペイント・アンド・エラスティング法を提案する。 PERFは,パノラマから3D,テキストから3D,3Dシーンのスタイリングなど,現実世界のアプリケーションに広く利用することができる。
論文参考訳（メタデータ） (2023-10-25T17:59:01Z)
SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-04-07T17:58:47Z)
Learning to Deblur and Rotate Motion-Blurred Faces [43.673660541417995]
ニューラルネットワークを用いて、1つの画像と対応する顔の視線から3Dビデオ表現を再構成する。次に、推定視線に対するカメラ視点と、エンコーダデコーダネットワークに入力されるぼやけた画像とを比較し、新しいカメラ視点でシャープフレームのビデオを生成する。
論文参考訳（メタデータ） (2021-12-14T17:51:19Z)
Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文参考訳（メタデータ） (2021-10-11T20:20:03Z)
Real-time dense 3D Reconstruction from monocular video data captured by low-cost UAVs [0.3867363075280543]
リアルタイム3d再構築は,ナビゲーションや緊急時のライブ評価など,多数のアプリケーションにメリットがある環境の高速密マッピングを可能にする。ほとんどのリアルタイム対応のアプローチとは対照的に、我々のアプローチは明示的な深度センサーを必要としない。建物周辺を斜め視で飛行する無人航空機(UAV)の自己動作を利用して、選択された画像のカメラ軌道と深度の両方を、十分な新規な内容で推定します。
論文参考訳（メタデータ） (2021-04-21T13:12:17Z)
MatryODShka: Real-time 6DoF Video View Synthesis using Multi-Sphere Images [26.899767088485184]
ステレオ360デグ(全方向ステレオ)画像を6DoFレンダリングのための層状多球面画像表現に変換する手法を提案する。これにより、ビューアの快適性が大幅に向上し、最新のGPUハードウェア上でリアルタイムで推論およびレンダリングを行うことができる。
論文参考訳（メタデータ） (2020-08-14T18:33:05Z)
Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。これらの深度マップは、異なるビューを粗く整列するために使用される。本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-03-27T21:28:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。