論文の概要: SpatialMe: Stereo Video Conversion Using Depth-Warping and Blend-Inpainting
- arxiv url: http://arxiv.org/abs/2412.11512v1
- Date: Mon, 16 Dec 2024 07:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:06.998319
- Title: SpatialMe: Stereo Video Conversion Using Depth-Warping and Blend-Inpainting
- Title(参考訳): SpaceMe:depth-WarpingとBlend-Inpaintingを用いたステレオビデオ変換
- Authors: Jiale Zhang, Qianxi Jia, Yang Liu, Wei Zhang, Wei Wei, Xin Tian,
- Abstract要約: 本研究では,深度ワープとブレンドインペインティングに基づく新しいステレオビデオ変換フレームワークであるSpatialMeを紹介する。
データ不足を軽減するために、高品質な現実世界のステレオビデオデータセット -- StereoV1K を実行しています。
- 参考スコア(独自算出の注目度): 20.98704347305053
- License:
- Abstract: Stereo video conversion aims to transform monocular videos into immersive stereo format. Despite the advancements in novel view synthesis, it still remains two major challenges: i) difficulty of achieving high-fidelity and stable results, and ii) insufficiency of high-quality stereo video data. In this paper, we introduce SpatialMe, a novel stereo video conversion framework based on depth-warping and blend-inpainting. Specifically, we propose a mask-based hierarchy feature update (MHFU) refiner, which integrate and refine the outputs from designed multi-branch inpainting module, using feature update unit (FUU) and mask mechanism. We also propose a disparity expansion strategy to address the problem of foreground bleeding. Furthermore, we conduct a high-quality real-world stereo video dataset -- StereoV1K, to alleviate the data shortage. It contains 1000 stereo videos captured in real-world at a resolution of 1180 x 1180, covering various indoor and outdoor scenes. Extensive experiments demonstrate the superiority of our approach in generating stereo videos over state-of-the-art methods.
- Abstract(参考訳): ステレオビデオ変換は、モノクロ動画を没入型ステレオフォーマットに変換することを目的としている。
新規な視点合成の進歩にもかかわらず、これは依然として2つの大きな課題である。
一 高忠実で安定した結果を得ることの難しさ及び
二 高品質のステレオビデオデータの不足
本稿では,深度ワープとブレンドインペインティングに基づく新しいステレオビデオ変換フレームワークであるSpatialMeを紹介する。
具体的には、機能更新ユニット(FUU)とマスク機構を用いて、設計したマルチブランチインペイントモジュールからの出力を統合・改善するマスクベースの階層機能更新(MHFU)を提案する。
また,前景出血の問題に対処するために,異質な拡張戦略を提案する。
さらに、データの不足を軽減するために、高品質な現実世界のステレオビデオデータセットであるStereoV1Kを実行します。
1000本のステレオビデオが現実世界で1180×1180の解像度で撮影され、様々な屋内と屋外のシーンをカバーしている。
大規模な実験は、最先端の手法よりもステレオビデオの生成において、我々のアプローチの優位性を実証している。
関連論文リスト
- T-SVG: Text-Driven Stereoscopic Video Generation [87.62286959918566]
本稿では,テキスト駆動ステレオビデオ生成(T-SVG)システムを紹介する。
テキストプロンプトを使用してビデオ生成を合理化し、参照ビデオを作成する。
これらのビデオは、3Dポイントのクラウドシーケンスに変換され、微妙なパララックス差のある2つの視点からレンダリングされる。
論文 参考訳(メタデータ) (2024-12-12T14:48:46Z) - StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart [45.27524689977587]
ゼロショットステレオビデオ生成のための新しいフレームワークである textitStereoCrafter-Zero を紹介する。
主なイノベーションは、ステレオ認識の潜伏剤を初期化するためのノイズの多い再起動戦略と反復的な精錬プロセスである。
我々のフレームワークは様々な拡散モデルに対して堅牢で適応可能であり、ゼロショットステレオビデオ生成のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-11-21T16:41:55Z) - ImmersePro: End-to-End Stereo Video Synthesis Via Implicit Disparity Learning [43.105154507379076]
textitImmerseProは、シングルビュービデオをステレオビデオに変換するために特別に設計されたフレームワークである。
textitImmerseProは暗黙の相違ガイダンスを採用しており、明示的な相違マップを必要とせずにビデオシーケンスからステレオペアを生成することができる。
本実験は,高画質ステレオビデオ作成におけるtextitImmersePro の有効性を実証し,既存の手法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-09-30T22:19:32Z) - StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos [44.51044100125421]
本稿では,没入型立体映像を没入型立体映像に変換するための新しい枠組みを提案し,没入型体験における3Dコンテンツの需要の増加に対処する。
われわれのフレームワークは、2Dから3Dへの変換を大幅に改善し、Apple Vision Proや3Dディスプレイのような3Dデバイス用の没入型コンテンツを作るための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-11T17:52:07Z) - Stereo Matching in Time: 100+ FPS Video Stereo Matching for Extended
Reality [65.70936336240554]
リアルタイムステレオマッチング(Real-time Stereo Matching)は、屋内3D理解、ビデオパススルー、混合現実感ゲームなど、多くの拡張現実感(XR)アプリケーションのための基盤となるアルゴリズムである。
最大の課題の1つは、ヘッドマウントのVR/ARメガネによってキャプチャされた高品質な屋内ビデオステレオトレーニングデータセットの欠如である。
室内シーンのレンダリングと6-DoF移動VR/ARヘッドマウントディスプレイ(HMD)によるリアルなカメラモーションを含む,新しいステレオ合成データセットを提案する。
これにより既存のアプローチの評価が促進され、屋内拡張現実シナリオのさらなる研究が促進される。
論文 参考訳(メタデータ) (2023-09-08T07:53:58Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - Deep 3D Mask Volume for View Synthesis of Dynamic Scenes [49.45028543279115]
120FPSのカスタム10カメラリグでキャプチャしたマルチビュービデオデータセットを提案する。
データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。
我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
論文 参考訳(メタデータ) (2021-08-30T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。