論文の概要: STATIC : Surface Temporal Affine for TIme Consistency in Video Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2412.01090v1
- Date: Mon, 02 Dec 2024 03:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 21:11:22.377049
- Title: STATIC : Surface Temporal Affine for TIme Consistency in Video Monocular Depth Estimation
- Title(参考訳): STATIC : ビデオ単眼深度推定のための表面仮面アフィン
- Authors: Sunghun Yang, Minhyeok Lee, Suhwan Cho, Jungho Lee, Sangyoun Lee,
- Abstract要約: ビデオ単眼深度推定は、自律運転、AR/VR、ロボット工学などのアプリケーションに不可欠である。
近年の変圧器を用いた単眼単眼深度推定モデルは単一画像上では良好に機能するが,ビデオフレーム間の奥行きの整合性に苦慮している。
本研究では,静的および動的領域における時間的一貫性を付加情報なしで学習する新しいモデルであるSTATICを提案する。
- 参考スコア(独自算出の注目度): 14.635179908525389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video monocular depth estimation is essential for applications such as autonomous driving, AR/VR, and robotics. Recent transformer-based single-image monocular depth estimation models perform well on single images but struggle with depth consistency across video frames. Traditional methods aim to improve temporal consistency using multi-frame temporal modules or prior information like optical flow and camera parameters. However, these approaches face issues such as high memory use, reduced performance with dynamic or irregular motion, and limited motion understanding. We propose STATIC, a novel model that independently learns temporal consistency in static and dynamic area without additional information. A difference mask from surface normals identifies static and dynamic area by measuring directional variance. For static area, the Masked Static (MS) module enhances temporal consistency by focusing on stable regions. For dynamic area, the Surface Normal Similarity (SNS) module aligns areas and enhances temporal consistency by measuring feature similarity between frames. A final refinement integrates the independently learned static and dynamic area, enabling STATIC to achieve temporal consistency across the entire sequence. Our method achieves state-of-the-art video depth estimation on the KITTI and NYUv2 datasets without additional information.
- Abstract(参考訳): ビデオ単眼深度推定は、自律運転、AR/VR、ロボット工学などのアプリケーションに不可欠である。
近年の変圧器を用いた単眼単眼深度推定モデルは単一画像上では良好に機能するが,ビデオフレーム間の奥行きの整合性に苦慮している。
従来の手法は、複数フレームの時間的モジュールや、光学フローやカメラパラメータといった事前情報を用いて、時間的一貫性を改善することを目的としている。
しかし、これらのアプローチは、高メモリ使用、動的または不規則な動作による性能の低下、動作理解の制限といった問題に直面している。
本研究では,静的および動的領域における時間的一貫性を付加情報なしで独立に学習する新しいモデルであるSTATICを提案する。
表面標準値からの差分マスクは、方向のばらつきを測定することによって静的領域と動的領域を識別する。
静的な領域では、Masked Static (MS)モジュールは安定な領域にフォーカスすることで時間的一貫性を高める。
動的領域に対して、表面正規類似度(SNS)モジュールは、フレーム間の特徴的類似度を測定することにより、領域を整列させ、時間的整合性を高める。
最終的な改良は、独立に学習された静的領域と動的領域を統合し、STATICはシーケンス全体にわたって時間的一貫性を達成できる。
提案手法は,KITTIおよびNYUv2データセットに対して,追加情報なしで,最先端のビデオ深度推定を実現する。
関連論文リスト
- Event-based Visual Deformation Measurement [76.25283405575108]
視覚的変形測定は、カメラ観測から表面の動きを追跡することによって、高密度な変形場を復元することを目的としている。
従来の画像ベースの手法は、対応検索空間を制限するため、最小限のフレーム間動作に依存している。
本研究では,時間的に密集した動きキューやフレームのイベントを利用して,空間的に密集した正確な推定を行うイベントフレーム融合フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T01:04:48Z) - MOSAIC-GS: Monocular Scene Reconstruction via Advanced Initialization for Complex Dynamic Environments [12.796165448365949]
MOSAIC-GSはモノクロビデオから高忠実度ダイナミックシーンを再構築するための、新しく、完全に明示的で、計算的に効率的なアプローチである。
我々は,深度,光学的流れ,動的物体セグメンテーション,点追跡など,複数の幾何学的手法を活用する。
我々は,MOSAIC-GSが既存の手法に比べて大幅に高速な最適化とレンダリングを実現することを実証した。
論文 参考訳(メタデータ) (2026-01-08T20:48:24Z) - SV-GS: Sparse View 4D Reconstruction with Skeleton-Driven Gaussian Splatting [19.12278036176021]
SV-GSは変形モデルと物体の動きを同時に推定するフレームワークである。
提案手法は,PSNRの34%までのスパース観測下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2026-01-01T09:53:03Z) - HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking [80.07224739976911]
イベントカメラは例外的な時間分解能と範囲(モード)を提供する
RGBカメラは高解像度でリッチテクスチャを捉えるのに優れていますが、イベントカメラは例外的な時間分解能とレンジ(モダル)を提供します。
論文 参考訳(メタデータ) (2025-10-22T13:15:13Z) - SplitGaussian: Reconstructing Dynamic Scenes via Visual Geometry Decomposition [14.381223353489062]
textbfSplitGaussianは、シーン表現を静的および動的コンポーネントに明示的に分解する新しいフレームワークである。
SplitGaussianは、レンダリング品質、幾何学的安定性、動き分離において、最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-08-06T09:00:13Z) - DiViD: Disentangled Video Diffusion for Static-Dynamic Factorization [2.7194314957925094]
静的・動的因数分解のための最初のエンドツーエンドビデオ拡散フレームワークであるDiViDを紹介する。
DiViDは、最初のフレームとフレームごとの動的トークンからグローバルな静的トークンを抽出し、モーションコードから静的コンテンツを明示的に削除する。
我々は、スワップベースの精度とクロスリーカシメトリクスを用いて、実世界のベンチマーク上でDiViDを評価する。
論文 参考訳(メタデータ) (2025-07-18T14:09:18Z) - DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。
提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T13:01:16Z) - OmniLocalRF: Omnidirectional Local Radiance Fields from Dynamic Videos [14.965321452764355]
我々はOmnidirectional Local Radiance Fields (OmniLocalRF)と呼ばれる新しいアプローチを導入し、静的のみのシーンビューをレンダリングする。
本手法は局所放射界の原理と全方位光の双方向最適化を組み合わせたものである。
実験により,OmniLocalRFは定性的,定量的に既存手法より優れていることを確認した。
論文 参考訳(メタデータ) (2024-03-31T12:55:05Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Robust Dynamic Radiance Fields [79.43526586134163]
動的放射場再構成法は動的シーンの時間変化構造と外観をモデル化することを目的としている。
しかし、既存の手法では、正確なカメラポーズをStructure from Motion (SfM)アルゴリズムによって確実に推定できると仮定している。
カメラパラメータとともに静的および動的放射場を共同で推定することにより、このロバスト性問題に対処する。
論文 参考訳(メタデータ) (2023-01-05T18:59:51Z) - STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic
Cross-Modal Understanding [68.96574451918458]
静的分岐と動的分岐を用いて視覚言語依存をモデル化するSTVGというフレームワークを提案する。
静的分岐と動的分岐は、クロスモーダルトランスとして設計されている。
提案手法は39.6%のvIoUを達成し,HC-STVGの第1位を獲得した。
論文 参考訳(メタデータ) (2022-07-06T15:48:58Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。