論文の概要: LeanStereo: A Leaner Backbone based Stereo Network
- arxiv url: http://arxiv.org/abs/2503.18557v1
- Date: Mon, 24 Mar 2025 11:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:49.237491
- Title: LeanStereo: A Leaner Backbone based Stereo Network
- Title(参考訳): LeanStereo: よりリーンなバックボーンベースのステレオネットワーク
- Authors: Rafia Rahim, Samuel Woerz, Andreas Zell,
- Abstract要約: 学習注意重みに基づくコストボリュームとLogL1損失を組み合わせた高速なエンドツーエンドステレオマッチング手法を提案する。
また,本手法は操作を4倍に減らし,工法に比べて約9~14倍高速であることを示す。
- 参考スコア(独自算出の注目度): 10.824879437909306
- License:
- Abstract: Recently, end-to-end deep networks based stereo matching methods, mainly because of their performance, have gained popularity. However, this improvement in performance comes at the cost of increased computational and memory bandwidth requirements, thus necessitating specialized hardware (GPUs); even then, these methods have large inference times compared to classical methods. This limits their applicability in real-world applications. Although we desire high accuracy stereo methods albeit with reasonable inference time. To this end, we propose a fast end-to-end stereo matching method. Majority of this speedup comes from integrating a leaner backbone. To recover the performance lost because of a leaner backbone, we propose to use learned attention weights based cost volume combined with LogL1 loss for stereo matching. Using LogL1 loss not only improves the overall performance of the proposed network but also leads to faster convergence. We do a detailed empirical evaluation of different design choices and show that our method requires 4x less operations and is also about 9 to 14x faster compared to the state of the art methods like ACVNet [1], LEAStereo [2] and CFNet [3] while giving comparable performance.
- Abstract(参考訳): 近年,エンド・ツー・エンドのディープ・ネットワークをベースとしたステレオマッチング方式が注目されている。
しかし、この性能改善は計算とメモリ帯域幅の要求が増大するコストが伴うため、特殊なハードウェア(GPU)を必要とする。
これにより、現実世界のアプリケーションにおける適用性が制限される。
高い精度のステレオ手法を欲しがるが、合理的な推測時間ではある。
そこで本研究では,高速なエンドツーエンドステレオマッチング手法を提案する。
このスピードアップの大きな原因は、よりリーンなバックボーンの統合にある。
そこで本研究では,学習注意量に基づくコストボリュームとLogL1損失を組み合わせたステレオマッチング手法を提案する。
LogL1の損失を使用すると、提案したネットワーク全体の性能が向上するだけでなく、より高速な収束がもたらされる。
ACVNet [1], LEAStereo [2], CFNet [3] といった最先端の手法と比較して, 同等の性能を示しながら, 提案手法が4倍から14倍高速であることを示す。
関連論文リスト
- FFCA-Net: Stereo Image Compression via Fast Cascade Alignment of Side
Information [44.88123177525665]
マルチビュー圧縮技術、特にステレオ画像圧縮(SIC)は、車載カメラや3D関連アプリケーションにおいて重要な役割を果たす。
本稿では,デコーダの側情報を完全に活用する機能ベースの高速カスケードアライメントネットワーク(FFCA-Net)を提案する。
提案手法は,他の手法よりも3倍から10倍高速な復号化を実現する。
論文 参考訳(メタデータ) (2023-12-28T11:12:03Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Efficient Diffusion Training via Min-SNR Weighting Strategy [78.5801305960993]
拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。
本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。
さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
論文 参考訳(メタデータ) (2023-03-16T17:59:56Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Multi-scale Iterative Residuals for Fast and Scalable Stereo Matching [13.76996108304056]
本稿では,このギャップを埋めるために,反復的マルチスケール粗粒微細化(iCFR)フレームワークを提案する。
マルチスケールのワープ機能を用いて,差分残差を推定し,コスト容積の差分探索範囲を最小限まで押し上げる。
最後に,マルチスケールアプローチに固有の精度の喪失を回復するために,改良ネットワークを適用した。
論文 参考訳(メタデータ) (2021-10-25T09:54:17Z) - Faster Meta Update Strategy for Noise-Robust Deep Learning [62.08964100618873]
我々は,メタグラデーションの最も高価なステップをより高速なレイヤワイズ近似に置き換えるために,新しいファMUS(Faster Meta Update Strategy)を導入する。
本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。
論文 参考訳(メタデータ) (2021-04-30T16:19:07Z) - ES-Net: An Efficient Stereo Matching Network [4.8986598953553555]
既存のステレオマッチングネットワークは通常、性能を改善するために遅くて計算コストのかかる3D畳み込みを使用する。
本稿では,高性能かつ効率的な推定を実現する効率的なステレオネットワーク(esnet)を提案する。
論文 参考訳(メタデータ) (2021-03-05T20:11:39Z) - Multi-Scale Cost Volumes Cascade Network for Stereo Matching [9.440848600106797]
従来手法とCNNを組み合わせたMSCVNetを提案する。
提案手法の有効性を実証し,精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-02-03T08:40:17Z) - PatchmatchNet: Learned Multi-View Patchmatch Stereo [70.14789588576438]
PatchmatchNetは、高解像度のマルチビューステレオのためのPatchmatchの新規で学習可能なカスケード定式化である。
PatchmatchNetは高速で低メモリを必要とするため、高解像度の画像を処理でき、3Dコストのボリューム正規化を採用する競合製品よりもリソース制限されたデバイスで実行するのに適している。
論文 参考訳(メタデータ) (2020-12-02T18:59:02Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - AANet: Adaptive Aggregation Network for Efficient Stereo Matching [33.39794232337985]
現在の最先端ステレオモデルは、ほとんどが高価な3D畳み込みに基づいている。
エッジフェットング問題を緩和するために,スパースポイントに基づくスケール内コストアグリゲーション手法を提案する。
また、従来のクロススケールなコスト集約アルゴリズムをニューラルネットワーク層に近似して、大きなテクスチャレス領域を処理する。
論文 参考訳(メタデータ) (2020-04-20T18:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。