論文の概要: Temporally Consistent Stereo Matching
- arxiv url: http://arxiv.org/abs/2407.11950v1
- Date: Tue, 16 Jul 2024 17:44:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 13:34:07.227755
- Title: Temporally Consistent Stereo Matching
- Title(参考訳): 時間的に一貫性のあるステレオマッチング
- Authors: Jiaxi Zeng, Chengtang Yao, Yuwei Wu, Yunde Jia,
- Abstract要約: ビデオステレオマッチングを時間的不均質化のプロセスとして定式化し,連続的な反復的改善を行った。
本手法は時間的不整合を効果的に軽減し,精度と効率を両立させる。
- 参考スコア(独自算出の注目度): 27.479227929999425
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Stereo matching provides depth estimation from binocular images for downstream applications. These applications mostly take video streams as input and require temporally consistent depth maps. However, existing methods mainly focus on the estimation at the single-frame level. This commonly leads to temporally inconsistent results, especially in ill-posed regions. In this paper, we aim to leverage temporal information to improve the temporal consistency, accuracy, and efficiency of stereo matching. To achieve this, we formulate video stereo matching as a process of temporal disparity completion followed by continuous iterative refinements. Specifically, we first project the disparity of the previous timestamp to the current viewpoint, obtaining a semi-dense disparity map. Then, we complete this map through a disparity completion module to obtain a well-initialized disparity map. The state features from the current completion module and from the past refinement are fused together, providing a temporally coherent state for subsequent refinement. Based on this coherent state, we introduce a dual-space refinement module to iteratively refine the initialized result in both disparity and disparity gradient spaces, improving estimations in ill-posed regions. Extensive experiments demonstrate that our method effectively alleviates temporal inconsistency while enhancing both accuracy and efficiency.
- Abstract(参考訳): ステレオマッチングは、下流アプリケーションのための双眼鏡画像からの深度推定を提供する。
これらのアプリケーションは、主にビデオストリームを入力として取り、時間的に一貫した深度マップを必要とする。
しかし、既存の手法は主に単一フレームレベルでの見積もりに焦点を当てている。
これは一般的に時間的に矛盾する結果をもたらし、特に不適切な地域では顕著である。
本稿では,ステレオマッチングの時間的一貫性,精度,効率を向上させるために,時間的情報を活用することを目的とする。
これを実現するために,ビデオステレオマッチングを時間的差分完了のプロセスとして定式化し,連続的な反復的改善を行う。
具体的には、まず、前回のタイムスタンプの差を現在の視点に投影し、半密度の差分マップを得る。
そして、この写像を不均質完備化モジュールを通して完成させ、よく初期化された不均質写像を得る。
現在の補修モジュールからの状態特徴と過去の補修モジュールからの状態特徴を融合させ、後続の補修のための時間的に整合した状態を提供する。
このコヒーレントな状態に基づいて、初期化結果を不均質な領域と不均質な勾配空間の両方で反復的に洗練する双対空間精製モジュールを導入し、不整合領域における推定を改善する。
本手法は時間的不整合を効果的に軽減し,精度と効率の両立を図っている。
関連論文リスト
- HomoMatcher: Dense Feature Matching Results with Semi-Dense Efficiency by Homography Estimation [39.48940223810725]
画像ペア間の特徴マッチングは、SLAMのような多くのアプリケーションを駆動するコンピュータビジョンの基本的な問題である。
本稿では,セミセンスマッチングフレームワークにおけるファインマッチングモジュールの強化に焦点をあてる。
我々は、粗いマッチングから得られたパッチ間の視点マッピングを生成するために、軽量で効率的なホモグラフィ推定ネットワークを用いる。
論文 参考訳(メタデータ) (2024-11-11T04:05:12Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - FRAME: A Modular Framework for Autonomous Map Merging: Advancements in the Field [12.247977717070773]
本稿では,エゴセントリックなマルチロボット探査における3次元点雲マップの融合について述べる。
提案手法は、最先端の場所認識と学習記述子を利用して、地図間の重複を効率的に検出する。
提案手法の有効性は,ロボット探査の複数のフィールドミッションを通じて実証された。
論文 参考訳(メタデータ) (2024-04-27T20:54:15Z) - Unsupervised Landmark Discovery Using Consistency Guided Bottleneck [63.624186864522315]
画像再構成に基づくパイプラインに一貫性のあるボトルネックを導入する。
本稿では,画像間のランドマーク対応を形成することによって,擬似スーパービジョンを得る手法を提案する。
この一貫性は、アダプティブ・ヒートマップの生成において発見されたランドマークの不確かさを変調する。
論文 参考訳(メタデータ) (2023-09-19T10:57:53Z) - Temporally Consistent Online Depth Estimation Using Point-Based Fusion [6.5514240555359455]
ビデオストリームの時間的一貫した深度マップをオンライン環境で推定することを目的としている。
これは、将来のフレームが利用できないため難しい問題であり、メソッドは、一貫性を強制するか、以前の推定からエラーを修正するかを選択する必要がある。
本稿では、各フレームを動的に更新するグローバルポイントクラウドと、画像空間における学習的融合アプローチを用いて、これらの課題に対処することを提案する。
論文 参考訳(メタデータ) (2023-04-15T00:04:18Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。