Fugu-MT 論文翻訳(概要): Align3R: Aligned Monocular Depth Estimation for Dynamic Videos

論文の概要: Align3R: Aligned Monocular Depth Estimation for Dynamic Videos

arxiv url: http://arxiv.org/abs/2412.03079v2
Date: Thu, 05 Dec 2024 14:16:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 14:17:01.657202
Title: Align3R: Aligned Monocular Depth Estimation for Dynamic Videos
Title（参考訳）: Align3R:動的ビデオの単眼深度推定
Authors: Jiahao Lu, Tianyu Huang, Peng Li, Zhiyang Dou, Cheng Lin, Zhiming Cui, Zhen Dong, Sai-Kit Yeung, Wenping Wang, Yuan Liu,
Abstract要約: 動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
参考スコア（独自算出の注目度）: 50.28715151619659
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent developments in monocular depth estimation methods enable high-quality depth estimation of single-view images but fail to estimate consistent video depth across different frames. Recent works address this problem by applying a video diffusion model to generate video depth conditioned on the input video, which is training-expensive and can only produce scale-invariant depth values without camera poses. In this paper, we propose a novel video-depth estimation method called Align3R to estimate temporal consistent depth maps for a dynamic video. Our key idea is to utilize the recent DUSt3R model to align estimated monocular depth maps of different timesteps. First, we fine-tune the DUSt3R model with additional estimated monocular depth as inputs for the dynamic scenes. Then, we apply optimization to reconstruct both depth maps and camera poses. Extensive experiments demonstrate that Align3R estimates consistent video depth and camera poses for a monocular video with superior performance than baseline methods.
Abstract（参考訳）: 近年の単眼深度推定法の開発により,一眼レフ画像の高品質な深度推定が可能になったが,一眼レフ画像のフレーム間における一貫した深度推定に失敗している。近年の研究では,映像拡散モデルを用いて,映像に条件付き映像深度を生成することでこの問題に対処している。本稿では,動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。まずDUSt3Rモデルを動的シーンの入力として追加の単分子深度で微調整する。次に、奥行きマップとカメラポーズの両方を再構成するために最適化を適用する。大規模な実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。

関連論文リスト

StereoDiff: Stereo-Diffusion Synergy for Video Depth Estimation [50.105716381966516]
我々は,映像深度推定は画像深度推定の単純な拡張ではないと主張している。ビデオ深度拡散を伴う静的領域のステレオマッチングを相乗化する2段ビデオ深度推定器であるStereoDiffを紹介する。
論文参考訳（メタデータ） (2025-06-25T18:35:10Z)
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文参考訳（メタデータ） (2025-01-21T18:53:30Z)
Video Depth without Video Models [34.11454612504574]
ビデオ深度推定は、各フレームに濃密な深度を推定することにより、単眼のビデオクリップを3Dに引き上げる。単一画像潜在拡散モデル(LDM)を最先端のビデオ深度推定器にする方法を示す。このモデルはRollingDepthと呼ばれ、(i)シングルイメージのLCMから派生したマルチフレーム深度推定器と、非常に短いビデオスニペットを深度スニペットにマッピングする。
論文参考訳（メタデータ） (2024-11-28T14:50:14Z)
NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文参考訳（メタデータ） (2023-07-17T17:57:01Z)
SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文参考訳（メタデータ） (2022-11-07T16:17:47Z)
Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。局所重み付き線形回帰法を提案する。提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文参考訳（メタデータ） (2022-02-03T08:52:54Z)
Endo-Depth-and-Motion: Localization and Reconstruction in Endoscopic Videos using Depth Networks and Photometric Constraints [12.065803181395667]
シーンの再構築と、身体内の動画からのカメラの動きの推定は、いくつかの要因により困難です。このパイプラインは、単眼内視鏡映像から6度の自由度カメラポーズと高密度3Dシーンモデルを推定する。
論文参考訳（メタデータ） (2021-03-30T17:29:31Z)
Self-Attention Dense Depth Estimation Network for Unrectified Video Sequences [6.821598757786515]
LiDARとレーダーセンサーはリアルタイム深度推定のためのハードウェアソリューションである。深層学習に基づく自己教師付き深度推定法は有望な結果を示した。未修正画像に対する自己注意に基づく深度・自我移動ネットワークを提案する。
論文参考訳（メタデータ） (2020-05-28T21:53:53Z)
Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文参考訳（メタデータ） (2019-12-30T10:45:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。