論文の概要: Stereo Matching in Time: 100+ FPS Video Stereo Matching for Extended
Reality
- arxiv url: http://arxiv.org/abs/2309.04183v1
- Date: Fri, 8 Sep 2023 07:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 15:46:49.189610
- Title: Stereo Matching in Time: 100+ FPS Video Stereo Matching for Extended
Reality
- Title(参考訳): リアルタイムのステレオマッチング:100以上のFPSビデオステレオマッチング
- Authors: Ziang Cheng, Jiayu Yang, Hongdong Li
- Abstract要約: リアルタイムステレオマッチング(Real-time Stereo Matching)は、屋内3D理解、ビデオパススルー、混合現実感ゲームなど、多くの拡張現実感(XR)アプリケーションのための基盤となるアルゴリズムである。
最大の課題の1つは、ヘッドマウントのVR/ARメガネによってキャプチャされた高品質な屋内ビデオステレオトレーニングデータセットの欠如である。
室内シーンのレンダリングと6-DoF移動VR/ARヘッドマウントディスプレイ(HMD)によるリアルなカメラモーションを含む,新しいステレオ合成データセットを提案する。
これにより既存のアプローチの評価が促進され、屋内拡張現実シナリオのさらなる研究が促進される。
- 参考スコア(独自算出の注目度): 65.70936336240554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time Stereo Matching is a cornerstone algorithm for many Extended
Reality (XR) applications, such as indoor 3D understanding, video pass-through,
and mixed-reality games. Despite significant advancements in deep stereo
methods, achieving real-time depth inference with high accuracy on a low-power
device remains a major challenge. One of the major difficulties is the lack of
high-quality indoor video stereo training datasets captured by head-mounted
VR/AR glasses. To address this issue, we introduce a novel video stereo
synthetic dataset that comprises photorealistic renderings of various indoor
scenes and realistic camera motion captured by a 6-DoF moving VR/AR
head-mounted display (HMD). This facilitates the evaluation of existing
approaches and promotes further research on indoor augmented reality scenarios.
Our newly proposed dataset enables us to develop a novel framework for
continuous video-rate stereo matching.
As another contribution, our dataset enables us to proposed a new video-based
stereo matching approach tailored for XR applications, which achieves real-time
inference at an impressive 134fps on a standard desktop computer, or 30fps on a
battery-powered HMD. Our key insight is that disparity and contextual
information are highly correlated and redundant between consecutive stereo
frames. By unrolling an iterative cost aggregation in time (i.e. in the
temporal dimension), we are able to distribute and reuse the aggregated
features over time. This approach leads to a substantial reduction in
computation without sacrificing accuracy. We conducted extensive evaluations
and comparisons and demonstrated that our method achieves superior performance
compared to the current state-of-the-art, making it a strong contender for
real-time stereo matching in VR/AR applications.
- Abstract(参考訳): リアルタイムステレオマッチング(Real-time Stereo Matching)は、屋内3D理解、ビデオパススルー、混合現実感ゲームなど、多くの拡張現実感(XR)アプリケーションのための基盤となるアルゴリズムである。
ディープステレオ法の大幅な進歩にもかかわらず、低消費電力デバイス上で高精度なリアルタイム深度推定を実現することは大きな課題である。
最大の難点の1つは、ヘッドマウントのvr/arグラスでキャプチャされた高品質な屋内ビデオステレオトレーニングデータセットの欠如である。
この問題に対処するために,6-DoF移動VR/ARヘッドマウントディスプレイ(HMD)によって撮影される,様々な屋内シーンのフォトリアリスティックレンダリングとリアルカメラモーションを組み合わせた,新しいステレオ合成データセットを提案する。
これにより、既存のアプローチの評価が促進され、屋内拡張現実シナリオのさらなる研究が促進される。
提案するデータセットは,連続ビデオレートステレオマッチングのための新しいフレームワークの開発を可能にする。
もうひとつのコントリビューションとして、XRアプリケーションに適した新しいビデオベースのステレオマッチングアプローチを提案し、標準デスクトップコンピュータでは134fps、バッテリー駆動のHMDでは30fpsでリアルタイムな推論を実現する。
我々の重要な洞察は、相違と文脈情報は連続するステレオフレーム間で非常に相関し、冗長であるということである。
反復的なコストアグリゲーションを時間(すなわち時間次元)にアンロールすることで、集約された特徴を時間とともに分散し再利用することができる。
このアプローチは精度を犠牲にすることなく計算を大幅に削減する。
提案手法は,VR/ARアプリケーションにおけるリアルタイムステレオマッチングの強力な競争相手となっている。
関連論文リスト
- StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart [45.27524689977587]
ゼロショットステレオビデオ生成のための新しいフレームワークである textitStereoCrafter-Zero を紹介する。
主なイノベーションは、ステレオ認識の潜伏剤を初期化するためのノイズの多い再起動戦略と反復的な精錬プロセスである。
我々のフレームワークは様々な拡散モデルに対して堅牢で適応可能であり、ゼロショットステレオビデオ生成のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-11-21T16:41:55Z) - Match Stereo Videos via Bidirectional Alignment [15.876953256378224]
最近の学習に基づく手法は、独立ステレオペアのパフォーマンスの最適化に重点を置いており、ビデオの時間的矛盾につながる。
本稿では,新しいビデオ処理フレームワークBiDAStereoとプラグイン安定化ネットワークBiDAStabilizerを紹介する。
本稿では,自然景観に着目したリアルな合成データセットとベンチマークと,様々な都市景観のステレオカメラが捉えた実世界のデータセットを定性評価として提示する。
論文 参考訳(メタデータ) (2024-09-30T13:37:29Z) - 3D Human Pose Perception from Egocentric Stereo Videos [67.9563319914377]
我々は,エゴセントリックな立体3次元ポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。
本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。
私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。
論文 参考訳(メタデータ) (2023-12-30T21:21:54Z) - Video Frame Interpolation with Stereo Event and Intensity Camera [40.07341828127157]
高品質な中間フレームを生成するための新しいステレオイベントベースVFIネットワーク(SE-VFI-Net)を提案する。
我々は,正確な光学的流れと不均一性推定を実現するために,融合した特徴を利用する。
提案するSEVFI-Netは最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-17T04:02:00Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - Deep Parametric 3D Filters for Joint Video Denoising and Illumination
Enhancement in Video Super Resolution [96.89588203312451]
本稿では,Deep Parametric 3D Filters (DP3DF) と呼ばれる新しいパラメトリック表現を提案する。
DP3DFは、ローカル情報を組み込んで、単一エンコーダ/デコーダネットワークにおいて、同時復調、照明強化、SRを効率的に実現している。
また、動的残留フレームを共有バックボーンを介してDP3DFと共同で学習し、SR品質をさらに向上させる。
論文 参考訳(メタデータ) (2022-07-05T03:57:25Z) - Fast Online Video Super-Resolution with Deformable Attention Pyramid [172.16491820970646]
ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。
変形性アテンションピラミッド(DAP)に基づく繰り返しVSRアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-03T17:49:04Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。