論文の概要: Globally Consistent Video Depth and Pose Estimation with Efficient
Test-Time Training
- arxiv url: http://arxiv.org/abs/2208.02709v1
- Date: Thu, 4 Aug 2022 15:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:46:05.528630
- Title: Globally Consistent Video Depth and Pose Estimation with Efficient
Test-Time Training
- Title(参考訳): 効率的なテストタイムトレーニングによるグローバルに一貫したビデオ奥行きとポーズ推定
- Authors: Yao-Chih Lee, Kuan-Wei Tseng, Guan-Sheng Chen and Chu-Song Chen
- Abstract要約: 我々は、動きから学習に基づくビデオ構造(SfM)のグローバルな一貫した方法であるGCVDを提案する。
GCVDはコンパクトなポーズグラフをCNNベースの最適化に統合し、効率的な選択機構からグローバルに一貫した結果を得る。
実験の結果,GCVDは深さと姿勢の両面において最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 15.46056322267856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense depth and pose estimation is a vital prerequisite for various video
applications. Traditional solutions suffer from the robustness of sparse
feature tracking and insufficient camera baselines in videos. Therefore, recent
methods utilize learning-based optical flow and depth prior to estimate dense
depth. However, previous works require heavy computation time or yield
sub-optimal depth results. We present GCVD, a globally consistent method for
learning-based video structure from motion (SfM) in this paper. GCVD integrates
a compact pose graph into the CNN-based optimization to achieve globally
consistent estimation from an effective keyframe selection mechanism. It can
improve the robustness of learning-based methods with flow-guided keyframes and
well-established depth prior. Experimental results show that GCVD outperforms
the state-of-the-art methods on both depth and pose estimation. Besides, the
runtime experiments reveal that it provides strong efficiency in both short-
and long-term videos with global consistency provided.
- Abstract(参考訳): 深度とポーズの推定は様々なビデオアプリケーションにとって重要な前提条件である。
従来のソリューションは、機能の少ないトラッキングとビデオのカメラベースライン不足の堅牢さに苦しんでいる。
そのため、近年の手法では、深度推定に先立って学習に基づく光学的流れと深度を利用する。
しかし、以前の研究は計算時間を要するか、あるいは準最適深さの結果を得る必要がある。
本稿では,動き(SfM)から学習した映像構造をグローバルに一貫したGCVDを提案する。
GCVDはCNNに基づく最適化にコンパクトなポーズグラフを統合し、効果的なキーフレーム選択機構から一貫した評価を実現する。
フローガイド付きキーフレームと確立された深さを持つ学習ベースのメソッドのロバスト性を改善することができる。
実験の結果,GCVDは深さと姿勢の両面において最先端の手法よりも優れていた。
さらに、ランタイム実験により、グローバルな一貫性を備えたショートビデオと長期ビデオの両方で、強力な効率性を提供することが明らかになった。
関連論文リスト
- Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - Self-Supervised Learning based Depth Estimation from Monocular Images [0.0]
単色深度推定の目標は、入力として2次元単色RGB画像が与えられた深度マップを予測することである。
我々は、トレーニング中に固有のカメラパラメータを実行し、我々のモデルをさらに一般化するために天気増悪を適用することを計画している。
論文 参考訳(メタデータ) (2023-04-14T07:14:08Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search [94.90294600817215]
高速なオンラインビデオポーズ推定のための空間的・時間的ネットワークに対する新しいニューラルネットワーク探索(NAS)手法(ViPNAS)を提案する。
空間レベルでは,ネットワーク深さ,幅,カーネルサイズ,グループ数,注目度などの5つの異なる次元の探索空間を慎重に設計する。
時間レベルでは、一連の時間的特徴融合から検索し、複数のビデオフレームの合計精度と速度を最適化する。
論文 参考訳(メタデータ) (2021-05-21T06:36:40Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。