論文の概要: Efficient stereo matching on embedded GPUs with zero-means cross
correlation
- arxiv url: http://arxiv.org/abs/2212.00476v1
- Date: Thu, 1 Dec 2022 13:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 17:07:13.138415
- Title: Efficient stereo matching on embedded GPUs with zero-means cross
correlation
- Title(参考訳): ゼロ平均相関を持つ組込みGPUの効率的なステレオマッチング
- Authors: Qiong Chang, Aolong Zha, Weimin Wang, Xin Liu, Masaki Onishi, Lei Lei,
Meng Joo Er, Tsutomu Maruyama
- Abstract要約: 本稿では,Jetson Tx2組込みGPU上でのゼロ平均正規化クロス相関(ZNCC)マッチングコスト計算アルゴリズムの高速化手法を提案する。
本手法では,ZNCCの高速化のために,Zigzag方式で対象画像をスキャンし,隣接する画素に対して1ピクセルの計算を効率的に再利用する。
本システムでは,最大1280x384ピクセル画像のJetson Tx2 GPUにおいて,32fpsのリアルタイム処理速度を示した。
- 参考スコア(独自算出の注目度): 8.446808526407738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile stereo-matching systems have become an important part of many
applications, such as automated-driving vehicles and autonomous robots.
Accurate stereo-matching methods usually lead to high computational complexity;
however, mobile platforms have only limited hardware resources to keep their
power consumption low; this makes it difficult to maintain both an acceptable
processing speed and accuracy on mobile platforms. To resolve this trade-off,
we herein propose a novel acceleration approach for the well-known zero-means
normalized cross correlation (ZNCC) matching cost calculation algorithm on a
Jetson Tx2 embedded GPU. In our method for accelerating ZNCC, target images are
scanned in a zigzag fashion to efficiently reuse one pixel's computation for
its neighboring pixels; this reduces the amount of data transmission and
increases the utilization of on-chip registers, thus increasing the processing
speed. As a result, our method is 2X faster than the traditional image scanning
method, and 26% faster than the latest NCC method. By combining this technique
with the domain transformation (DT) algorithm, our system show real-time
processing speed of 32 fps, on a Jetson Tx2 GPU for 1,280x384 pixel images with
a maximum disparity of 128. Additionally, the evaluation results on the KITTI
2015 benchmark show that our combined system is more accurate than the same
algorithm combined with census by 7.26%, while maintaining almost the same
processing speed.
- Abstract(参考訳): モバイルステレオマッチングシステムは、自動運転車や自律ロボットなど、多くのアプリケーションで重要な部分となっている。
正確なステレオマッチング手法は通常高い計算複雑性をもたらすが、モバイルプラットフォームは消費電力を低く抑えるためのハードウェアリソースが限られているため、モバイルプラットフォームでの処理速度と精度を維持するのが困難である。
本稿では,このトレードオフを解決するために,Jetson Tx2組み込みGPU上でのよく知られたゼロ平均正規化クロス相関(ZNCC)マッチングコスト計算アルゴリズムを提案する。
本手法では,ZNCCの高速化のために,対象画像をジグザグ方式でスキャンし,隣接する画素に対して1ピクセルの計算を効率よく再利用することにより,データ転送量を削減し,オンチップレジスタの利用率を向上し,処理速度を向上する。
その結果,従来の画像スキャン法より2倍高速で,最新のNCC法より26%高速であることがわかった。
この手法とドメイン変換(DT)アルゴリズムを組み合わせることで,最大1280x384ピクセル画像のJetson Tx2 GPUにおいて,32fpsのリアルタイム処理速度を示した。
さらに、KITTI 2015ベンチマークの評価結果は、我々の組み合わせシステムは、ほぼ同じ処理速度を維持しながら、国勢調査と組み合わせたアルゴリズムよりも精度が7.26%高いことを示している。
関連論文リスト
- EDCSSM: Edge Detection with Convolutional State Space Model [3.649463841174485]
画像のエッジ検出は、コンピュータグラフィックスにおける多くの複雑なタスクの基礎となっている。
多層畳み込みとプールアーキテクチャによる特徴損失のため、学習ベースのエッジ検出モデルは、しばしば厚いエッジを生成する。
本稿では,上記の問題に効果的に対処するエッジ検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-03T05:13:25Z) - SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - UHD Image Deblurring via Multi-scale Cubic-Mixer [12.402054374952485]
トランスフォーマーベースのアルゴリズムは、画像劣化の領域に飛び散っている。
これらのアルゴリズムはトークン間の長距離依存関係をモデル化するためにCNNステムによる自己保持機構に依存する。
論文 参考訳(メタデータ) (2022-06-08T05:04:43Z) - Parallel Discrete Convolutions on Adaptive Particle Representations of
Images [2.362412515574206]
適応粒子表現上の離散畳み込み演算子のネイティブ実装のためのデータ構造とアルゴリズムを提案する。
APRは、サンプリング解像度を画像信号に局所的に適応するコンテンツ適応型画像表現である。
APRの畳み込みは、マルチコアCPUとGPUアーキテクチャを効率的に並列化するスケール適応アルゴリズムを自然に導くことを示す。
論文 参考訳(メタデータ) (2021-12-07T09:40:05Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Faster Mean-shift: GPU-accelerated clustering for cosine embedding-based
cell segmentation and tracking [12.60841328582138]
本稿では,埋め込み型セルセグメンテーションとトラッキングの計算ボトルネックに対処する,高速平均シフトアルゴリズムを提案する。
提案したFaster Mean-shiftアルゴリズムは、最先端の埋め込みベースのセルインスタンスのセグメンテーションとトラッキングアルゴリズムと比較して7~10倍の高速化を実現した。
我々の高速平均シフトアルゴリズムは、メモリ消費を最適化した他のGPUベンチマークと比較して計算速度も高い。
論文 参考訳(メタデータ) (2020-07-28T14:52:51Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。