論文の概要: DensePercept-NCSSD: Vision Mamba towards Real-time Dense Visual Perception with Non-Causal State Space Duality
- arxiv url: http://arxiv.org/abs/2511.12671v1
- Date: Sun, 16 Nov 2025 16:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.438234
- Title: DensePercept-NCSSD: Vision Mamba towards Real-time Dense Visual Perception with Non-Causal State Space Duality
- Title(参考訳): DensePercept-NCSSD:非因果状態空間双対を用いたリアルタイム高密度視覚知覚に向けたビジョン・マンバ
- Authors: Tushar Anand, Advik Sinha, Abhijit Das,
- Abstract要約: 本稿では,ペア入力画像の融合による高精度かつリアルタイムな光フローと不均一性推定モデルを提案する。
提案モデルでは,高い精度と低GPU使用率を維持しながら,推論時間を短縮する。
- 参考スコア(独自算出の注目度): 2.036129241213064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose an accurate and real-time optical flow and disparity estimation model by fusing pairwise input images in the proposed non-causal selective state space for dense perception tasks. We propose a non-causal Mamba block-based model that is fast and efficient and aptly manages the constraints present in a real-time applications. Our proposed model reduces inference times while maintaining high accuracy and low GPU usage for optical flow and disparity map generation. The results and analysis, and validation in real-life scenario justify that our proposed model can be used for unified real-time and accurate 3D dense perception estimation tasks. The code, along with the models, can be found at https://github.com/vimstereo/DensePerceptNCSSD
- Abstract(参考訳): 本研究では,高密度感性タスクのための非因果選択状態空間に2つの入力画像を融合させることにより,高精度かつリアルタイムな光フローと不均質度推定モデルを提案する。
本稿では,リアルタイムアプリケーションに存在する制約を高速かつ効率的に管理できる非因果的マンバブロックベースモデルを提案する。
提案モデルでは,光フローと不均一マップ生成のための高速かつ低GPU使用率を維持しながら,推論時間を短縮する。
実生活シナリオにおける結果と分析および検証は,提案モデルが実時間および高精度な3次元高密度知覚推定タスクに使用できることを正当化するものである。
コードはモデルとともにhttps://github.com/vimstereo/DensePerceptNCSSDで見ることができる。
関連論文リスト
- Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。
このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。
提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文 参考訳(メタデータ) (2025-08-06T16:16:58Z) - Online Traffic Density Estimation using Physics-Informed Neural Networks [5.888531936968298]
本稿では,プローブ車からの測定値を用いた交通密度のオンライン近似手法を提案する。
提案手法は,空間内におけるリアルタイムトラフィック密度を連続的に推定し,各測定値のモデル同定を行う。
論文 参考訳(メタデータ) (2025-04-04T14:41:22Z) - VADMamba: Exploring State Space Models for Fast Video Anomaly Detection [4.874215132369157]
VQ-Mamba Unet(VQ-MaU)フレームワークには、Vector Quantization(VQ)層と、Mambaベースの非負のVisual State Space(NVSS)ブロックが組み込まれている。
提案するVADMambaの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2025-03-27T05:38:12Z) - MambaFlow: A Novel and Flow-guided State Space Model for Scene Flow Estimation [5.369567679302849]
本稿では,マンバに基づくデコーダを用いたシーンフロー推定ネットワークであるマンバを提案する。
MambaFlowは、既存の作業間でリアルタイム推論速度で最先端のパフォーマンスを実現する。
Argoverse 2ベンチマークの実験は、MambaFlowがリアルタイムの推論速度で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-02-24T07:05:49Z) - Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文 参考訳(メタデータ) (2024-09-17T16:58:52Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - PRISM: Probabilistic Real-Time Inference in Spatial World Models [52.878769723544615]
PRISMはエージェントの動きと視覚知覚の確率的生成モデルにおけるリアルタイムフィルタリングの手法である。
提案手法は10Hzでリアルタイムに動作し,小型・中型屋内環境における最先端SLAMと同等に精度が高い。
論文 参考訳(メタデータ) (2022-12-06T13:59:06Z) - Accurate and Real-time Pseudo Lidar Detection: Is Stereo Neural Network
Really Necessary? [6.8067583993953775]
我々は,より強力なステレオマッチング予測器を備えたシステムを開発し,精度向上のための改良手法を提案する。
提案システムは23ミリ秒の計算で最先端のアプローチと競合する精度を達成し,実車用アプリケーションへのデプロイに適した候補であることを示す。
論文 参考訳(メタデータ) (2022-06-28T09:53:00Z) - A Generative Learning Approach for Spatio-temporal Modeling in Connected
Vehicular Network [55.852401381113786]
本稿では,コネクテッドカーの無線アクセス遅延を実現するための総合的時間品質フレームワークであるLaMI(Latency Model Inpainting)を提案する。
LaMIはイメージインペイントと合成のアイデアを採用し、2段階の手順で欠落したレイテンシサンプルを再構築することができる。
特に、パッチ方式のアプローチを用いて各地域で収集されたサンプル間の空間的相関を初めて発見し、その後、原点および高度に相関したサンプルをバラエナオートコーダ(VAE)に供給する。
論文 参考訳(メタデータ) (2020-03-16T03:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。