論文の概要: ESMStereo: Enhanced ShuffleMixer Disparity Upsampling for Real-Time and Accurate Stereo Matching
- arxiv url: http://arxiv.org/abs/2506.21091v1
- Date: Thu, 26 Jun 2025 08:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.022722
- Title: ESMStereo: Enhanced ShuffleMixer Disparity Upsampling for Real-Time and Accurate Stereo Matching
- Title(参考訳): ESMStereo: リアルタイムおよび正確なステレオマッチングのためのShuffleMixer差分アップサンプリングを強化
- Authors: Mahmoud Tahmasebi, Saif Huq, Kevin Meehan, Marion McAfee,
- Abstract要約: 小型のシャッフルミキサー(ESM)を提案する。
ESMは、主要な特徴を異種アップサンプリングユニットに統合することで、重要な詳細を復元する。
ESMStereoのコンパクトバージョンは、ハイエンドGPUで116 FPS、AGX Orinで91 FPSの推論速度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stereo matching has become an increasingly important component of modern autonomous systems. Developing deep learning-based stereo matching models that deliver high accuracy while operating in real-time continues to be a major challenge in computer vision. In the domain of cost-volume-based stereo matching, accurate disparity estimation depends heavily on large-scale cost volumes. However, such large volumes store substantial redundant information and also require computationally intensive aggregation units for processing and regression, making real-time performance unattainable. Conversely, small-scale cost volumes followed by lightweight aggregation units provide a promising route for real-time performance, but lack sufficient information to ensure highly accurate disparity estimation. To address this challenge, we propose the Enhanced Shuffle Mixer (ESM) to mitigate information loss associated with small-scale cost volumes. ESM restores critical details by integrating primary features into the disparity upsampling unit. It quickly extracts features from the initial disparity estimation and fuses them with image features. These features are mixed by shuffling and layer splitting then refined through a compact feature-guided hourglass network to recover more detailed scene geometry. The ESM focuses on local contextual connectivity with a large receptive field and low computational cost, leading to the reconstruction of a highly accurate disparity map at real-time. The compact version of ESMStereo achieves an inference speed of 116 FPS on high-end GPUs and 91 FPS on the AGX Orin.
- Abstract(参考訳): ステレオマッチングは、現代の自律システムにおいて、ますます重要なコンポーネントになりつつある。
リアルタイムに操作しながら高い精度を提供するディープラーニングベースのステレオマッチングモデルの開発は、コンピュータビジョンにおける大きな課題である。
コストボリュームベースのステレオマッチングの領域では、精度の相違は大規模コストボリュームに大きく依存する。
しかし、そのような大きなボリュームは、かなりの冗長な情報を格納し、処理と回帰のために計算集約ユニットを必要とするため、リアルタイムのパフォーマンスは達成不可能である。
逆に、小型のコストボリュームと軽量のアグリゲーションユニットは、リアルタイムのパフォーマンスに有望な経路を提供するが、高精度な異質度推定を保証するには十分な情報がない。
この課題に対処するため,小型のシャッフルミキサー (ESM) を提案する。
ESMは、主要な特徴を異種アップサンプリングユニットに統合することで、重要な詳細を復元する。
初期差分推定から素早く特徴を抽出し、画像特徴と融合する。
これらの特徴はシャッフルと層分割によって混合され、その後、より詳細なシーン形状を復元するために、コンパクトな特徴誘導型時間ガラスネットワークによって洗練される。
ESMは、大きな受容場と計算コストの低い局所的なコンテキスト接続に焦点を合わせ、高度に正確な異性マップをリアルタイムに再構築する。
ESMStereoのコンパクトバージョンは、ハイエンドGPUで116 FPS、AGX Orinで91 FPSの推論速度を達成する。
関連論文リスト
- Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - ACVNet: Attention Concatenation Volume for Accurate and Efficient Stereo
Matching [7.39503547452922]
本稿では,余剰情報を抑制するために,相関情報から注意重みを生成する新しいコストボリューム構築手法を提案する。
信頼性の高い注意重みを生成するため,マッチングコストの特異性を改善するため,マルチレベル適応パッチマッチングを提案する。
提案するコスト容積は、ほとんどのステレオマッチングネットワークにシームレスに組み込むことのできる注意結合容積 (ACV) と命名される。
論文 参考訳(メタデータ) (2022-03-04T06:28:58Z) - Coarse-to-Fine Embedded PatchMatch and Multi-Scale Dynamic Aggregation
for Reference-based Super-Resolution [48.093500219958834]
参照型スーパーリゾリューションのためのAMSA(Accelerated Multi-Scale Aggregation Network)を提案する。
提案したAMSAは,定量評価と定性評価の両面において,最先端の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-12T08:40:23Z) - Multi-View Stereo Network with attention thin volume [0.0]
複数のRGB画像から深度値を推定するための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
入力画像から支配的な情報を完全に集約する自己認識機構を導入する。
また,特徴集約に対するグループワイド相関を導入し,メモリと計算負荷を大幅に削減する。
論文 参考訳(メタデータ) (2021-10-16T11:51:23Z) - A Decomposition Model for Stereo Matching [43.04003114948216]
本稿では, ステレオマッチングの分解モデルを用いて, 解像度が増大するにつれて計算コストが過度に増大する問題を解く。
私たちのモデルは、非常に低い解像度でのみ高密度マッチングを実行し、異なる高分解能でスパースマッチングを使用して、スケールごとに失われた詳細のばらつきを回復します。
論文 参考訳(メタデータ) (2021-04-15T15:16:23Z) - CFNet: Cascade and Fused Cost Volume for Robust Stereo Matching [27.313740022587442]
ステレオマッチングネットワークのロバスト性を改善するために,カスケードとフューズドのコストボリュームに基づくネットワークCFNetを提案する。
分散に基づく不確実性推定を用いて、次の段階の差分探索空間を適応的に調整する。
提案手法は、最先端の総合性能を達成し、Robust Vision Challenge 2020のステレオタスクで1位を獲得します。
論文 参考訳(メタデータ) (2021-04-09T11:38:59Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Learning Inverse Depth Regression for Multi-View Stereo with Correlation
Cost Volume [32.41293572426403]
深層学習は多視点ステレオ(MVS)の深部推論に有効であることが示されている。
しかし、この領域ではスケーラビリティと正確性は依然として未解決の問題である。
ステレオマッチングにおけるグループワイド相関に着想を得て,軽量なコストボリュームを構築するための平均グループワイド相関類似度尺度を提案する。
論文 参考訳(メタデータ) (2019-12-26T01:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。