論文の概要: STATIC : Surface Temporal Affine for TIme Consistency in Video Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2412.01090v1
- Date: Mon, 02 Dec 2024 03:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:28.845501
- Title: STATIC : Surface Temporal Affine for TIme Consistency in Video Monocular Depth Estimation
- Title(参考訳): STATIC : ビデオ単眼深度推定のための表面仮面アフィン
- Authors: Sunghun Yang, Minhyeok Lee, Suhwan Cho, Jungho Lee, Sangyoun Lee,
- Abstract要約: ビデオ単眼深度推定は、自律運転、AR/VR、ロボット工学などのアプリケーションに不可欠である。
近年の変圧器を用いた単眼単眼深度推定モデルは単一画像上では良好に機能するが,ビデオフレーム間の奥行きの整合性に苦慮している。
本研究では,静的および動的領域における時間的一貫性を付加情報なしで学習する新しいモデルであるSTATICを提案する。
- 参考スコア(独自算出の注目度): 14.635179908525389
- License:
- Abstract: Video monocular depth estimation is essential for applications such as autonomous driving, AR/VR, and robotics. Recent transformer-based single-image monocular depth estimation models perform well on single images but struggle with depth consistency across video frames. Traditional methods aim to improve temporal consistency using multi-frame temporal modules or prior information like optical flow and camera parameters. However, these approaches face issues such as high memory use, reduced performance with dynamic or irregular motion, and limited motion understanding. We propose STATIC, a novel model that independently learns temporal consistency in static and dynamic area without additional information. A difference mask from surface normals identifies static and dynamic area by measuring directional variance. For static area, the Masked Static (MS) module enhances temporal consistency by focusing on stable regions. For dynamic area, the Surface Normal Similarity (SNS) module aligns areas and enhances temporal consistency by measuring feature similarity between frames. A final refinement integrates the independently learned static and dynamic area, enabling STATIC to achieve temporal consistency across the entire sequence. Our method achieves state-of-the-art video depth estimation on the KITTI and NYUv2 datasets without additional information.
- Abstract(参考訳): ビデオ単眼深度推定は、自律運転、AR/VR、ロボット工学などのアプリケーションに不可欠である。
近年の変圧器を用いた単眼単眼深度推定モデルは単一画像上では良好に機能するが,ビデオフレーム間の奥行きの整合性に苦慮している。
従来の手法は、複数フレームの時間的モジュールや、光学フローやカメラパラメータといった事前情報を用いて、時間的一貫性を改善することを目的としている。
しかし、これらのアプローチは、高メモリ使用、動的または不規則な動作による性能の低下、動作理解の制限といった問題に直面している。
本研究では,静的および動的領域における時間的一貫性を付加情報なしで独立に学習する新しいモデルであるSTATICを提案する。
表面標準値からの差分マスクは、方向のばらつきを測定することによって静的領域と動的領域を識別する。
静的な領域では、Masked Static (MS)モジュールは安定な領域にフォーカスすることで時間的一貫性を高める。
動的領域に対して、表面正規類似度(SNS)モジュールは、フレーム間の特徴的類似度を測定することにより、領域を整列させ、時間的整合性を高める。
最終的な改良は、独立に学習された静的領域と動的領域を統合し、STATICはシーケンス全体にわたって時間的一貫性を達成できる。
提案手法は,KITTIおよびNYUv2データセットに対して,追加情報なしで,最先端のビデオ深度推定を実現する。
関連論文リスト
- DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。
提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T13:01:16Z) - OmniLocalRF: Omnidirectional Local Radiance Fields from Dynamic Videos [14.965321452764355]
我々はOmnidirectional Local Radiance Fields (OmniLocalRF)と呼ばれる新しいアプローチを導入し、静的のみのシーンビューをレンダリングする。
本手法は局所放射界の原理と全方位光の双方向最適化を組み合わせたものである。
実験により,OmniLocalRFは定性的,定量的に既存手法より優れていることを確認した。
論文 参考訳(メタデータ) (2024-03-31T12:55:05Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Robust Dynamic Radiance Fields [79.43526586134163]
動的放射場再構成法は動的シーンの時間変化構造と外観をモデル化することを目的としている。
しかし、既存の手法では、正確なカメラポーズをStructure from Motion (SfM)アルゴリズムによって確実に推定できると仮定している。
カメラパラメータとともに静的および動的放射場を共同で推定することにより、このロバスト性問題に対処する。
論文 参考訳(メタデータ) (2023-01-05T18:59:51Z) - STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic
Cross-Modal Understanding [68.96574451918458]
静的分岐と動的分岐を用いて視覚言語依存をモデル化するSTVGというフレームワークを提案する。
静的分岐と動的分岐は、クロスモーダルトランスとして設計されている。
提案手法は39.6%のvIoUを達成し,HC-STVGの第1位を獲得した。
論文 参考訳(メタデータ) (2022-07-06T15:48:58Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。