論文の概要: DenVisCoM: Dense Vision Correspondence Mamba for Efficient and Real-time Optical Flow and Stereo Estimation
- arxiv url: http://arxiv.org/abs/2602.01724v1
- Date: Mon, 02 Feb 2026 07:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.966188
- Title: DenVisCoM: Dense Vision Correspondence Mamba for Efficient and Real-time Optical Flow and Stereo Estimation
- Title(参考訳): DenVisCoM:高効率・リアルタイム光流とステレオ推定のための高密度視覚対応マンバ
- Authors: Tushar Anand, Maheswar Bora, Antitza Dantcheva, Abhijit Das,
- Abstract要約: 本稿では,光流の高精度かつリアルタイムな推定と不均一性推定のための新しいマンバブロックdenVisCoMを提案する。
我々は、多数のデータセット上で精度とリアルタイム処理のベンチマークトレードオフを広範囲に分析する。
実験結果と関連する分析結果から,提案モデルでは,光学的流れと不均一性の推定をリアルタイムで正確に推定できることが示唆された。
- 参考スコア(独自算出の注目度): 9.539865774109343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a novel Mamba block DenVisCoM, as well as a novel hybrid architecture specifically tailored for accurate and real-time estimation of optical flow and disparity estimation. Given that such multi-view geometry and motion tasks are fundamentally related, we propose a unified architecture to tackle them jointly. Specifically, the proposed hybrid architecture is based on DenVisCoM and a Transformer-based attention block that efficiently addresses real-time inference, memory footprint, and accuracy at the same time for joint estimation of motion and 3D dense perception tasks. We extensively analyze the benchmark trade-off of accuracy and real-time processing on a large number of datasets. Our experimental results and related analysis suggest that our proposed model can accurately estimate optical flow and disparity estimation in real time. All models and associated code are available at https://github.com/vimstereo/DenVisCoM.
- Abstract(参考訳): 本研究では,光フローの高精度かつリアルタイムな推定と不均一性推定に適した新しいハイブリッドアーキテクチャとして,新しいMambaブロックDenVisCoMを提案する。
このような多視点幾何と運動タスクが根本的に関連していることを考えると、協調的にそれらに取り組むための統一アーキテクチャを提案する。
具体的には、DenVisCoMとTransformerベースのアテンションブロックをベースとして、リアルタイムの推論、メモリフットプリント、精度を同時に処理し、動きと3次元密認識タスクの同時推定を行う。
我々は、多数のデータセット上で精度とリアルタイム処理のベンチマークトレードオフを広範囲に分析する。
実験結果と関連する分析結果から,提案モデルでは,光学的流れと不均一性の推定をリアルタイムで正確に推定できることが示唆された。
すべてのモデルと関連するコードはhttps://github.com/vimstereo/DenVisCoM.comで入手できる。
関連論文リスト
- Video Depth Propagation [54.523028170425256]
既存の手法は単純なフレーム・バイ・フレームの単分子モデルに依存しており、時間的矛盾と不正確な結果をもたらす。
本稿では,オンラインビデオパイプラインを効果的に活用し,深い特徴伝達を行うVeloDepthを提案する。
構造的に時間的整合性を強制し, 連続するフレーム間に安定した深さ予測を行い, 効率を向上する。
論文 参考訳(メタデータ) (2025-12-11T15:08:37Z) - DensePercept-NCSSD: Vision Mamba towards Real-time Dense Visual Perception with Non-Causal State Space Duality [2.036129241213064]
本稿では,ペア入力画像の融合による高精度かつリアルタイムな光フローと不均一性推定モデルを提案する。
提案モデルでは,高い精度と低GPU使用率を維持しながら,推論時間を短縮する。
論文 参考訳(メタデータ) (2025-11-16T16:17:00Z) - ViM-Disparity: Bridging the Gap of Speed, Accuracy and Memory for Disparity Map Generation [1.1166701898428382]
分散マップ生成(DMG)の計算オーバーヘッドが低いリアルタイムかつ高精度なモデルにおいて,既存のトレードオフを解消するためのVisual Mamba (ViM) アーキテクチャを提案する。
本稿では,DMGモデルの推論速度,計算オーバーヘッド,精度を共同評価できる性能指標を提案する。
論文 参考訳(メタデータ) (2024-12-21T19:41:10Z) - Transformer-Based Multi-Object Smoothing with Decoupled Data Association
and Smoothing [20.99082981430798]
マルチオブジェクト追跡(Multi-object Tracking、MOT)は、ある時間ウィンドウ上で、未知および時間変化したオブジェクトの状態軌跡を推定するタスクである。
ディープラーニングベースのアルゴリズムはこの問題に対処する場として考えられるが、正確なマルチオブジェクトモデルが利用できるような環境では広く適用されていない。
本稿では,データアソシエーションタスクをスムースなタスクから切り離すような,この設定に適した新しいDLアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-22T20:24:39Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Robust Ego and Object 6-DoF Motion Estimation and Tracking [5.162070820801102]
本稿では,動的多体視覚計測における高精度な推定と一貫した追跡性を実現するためのロバストな解を提案する。
セマンティック・インスタンスレベルのセグメンテーションと正確な光フロー推定の最近の進歩を活用して、コンパクトで効果的なフレームワークを提案する。
追従点の品質と運動推定精度を向上させる新しい定式化SE(3)運動と光流が導入された。
論文 参考訳(メタデータ) (2020-07-28T05:12:56Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。