論文の概要: Separable Convolutions for Optimizing 3D Stereo Networks
- arxiv url: http://arxiv.org/abs/2108.10216v1
- Date: Mon, 23 Aug 2021 14:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 17:40:37.707794
- Title: Separable Convolutions for Optimizing 3D Stereo Networks
- Title(参考訳): 3次元ステレオネットワーク最適化のための分離可能な畳み込み
- Authors: Rafia Rahim, Faranak Shamsafar and Andreas Zell
- Abstract要約: ステレオネットワークにおける3次元畳み込みはネットワーク全体の94%を消費していることを示す。
本稿では,パラメータと演算数を削減すべく,分離可能な「プラグ&ラン」畳み込みを提案する。
アートステレオネットワークの既存の状態と統合すると、これらの畳み込みは性能を損なうことなく、演算数の7倍、パラメータの3.5倍の削減につながる。
- 参考スコア(独自算出の注目度): 16.787578549280294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning based 3D stereo networks give superior performance compared to
2D networks and conventional stereo methods. However, this improvement in the
performance comes at the cost of increased computational complexity, thus
making these networks non-practical for the real-world applications.
Specifically, these networks use 3D convolutions as a major work horse to
refine and regress disparities. In this work first, we show that these 3D
convolutions in stereo networks consume up to 94% of overall network operations
and act as a major bottleneck. Next, we propose a set of "plug-&-run" separable
convolutions to reduce the number of parameters and operations. When integrated
with the existing state of the art stereo networks, these convolutions lead up
to 7x reduction in number of operations and up to 3.5x reduction in parameters
without compromising their performance. In fact these convolutions lead to
improvement in their performance in the majority of cases.
- Abstract(参考訳): ディープラーニングに基づく3Dステレオネットワークは、2Dネットワークや従来のステレオ手法に比べて優れた性能を提供する。
しかし、この性能改善は計算複雑性の増大によるコストが伴うため、これらのネットワークは現実のアプリケーションでは実用的ではない。
特に、これらのネットワークは3d畳み込みを主要な作業馬として用い、格差を洗練し後退させます。
まず、ステレオネットワークにおけるこれらの3D畳み込みは、ネットワーク全体の94%を消費し、主要なボトルネックとして機能することを示す。
次に,パラメータ数と演算量を削減するために,分離可能な「プラグ&ラン」畳み込みを提案する。
アートステレオネットワークの既存の状態と統合すると、これらの畳み込みは性能を損なうことなく、演算数の最大7倍、パラメータの最大3.5倍の削減につながる。
実際、これらの混乱は、ほとんどのケースでパフォーマンスの改善につながります。
関連論文リスト
- BDC-Occ: Binarized Deep Convolution Unit For Binarized Occupancy Network [55.21288428359509]
既存の3D占有ネットワークは重要なハードウェアリソースを必要としており、エッジデバイスの配備を妨げている。
本稿では,バイナライズド・ディープ・コンボリューション(BDC)ユニットを提案し,バイナライズド・ディープ・コンボリューション・レイヤの数を増やしつつ性能を効果的に向上させる。
我々のBDC-Occモデルは既存の3D占有ネットワークをバイナライズするために提案したBDCユニットを適用して作成する。
論文 参考訳(メタデータ) (2024-05-27T10:44:05Z) - LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels [62.31333169413391]
大型スパースカーネル3次元ニューラルネットワーク(LSK3DNet)
提案手法は,SDS (Spatial-wise Dynamic Sparsity) とCWS (Channel-wise Weight Selection) の2成分からなる。
論文 参考訳(メタデータ) (2024-03-22T12:54:33Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Using a Waffle Iron for Automotive Point Cloud Semantic Segmentation [66.6890991207065]
スパース3D畳み込みは、ディープニューラルネットワークを構築するためのデファクトツールとなっている。
本稿では,スパース畳み込みを必要とせず,最先端の手法に到達できる方法を提案する。
このような性能のレベルは、大規模かつ高性能な3D知覚に相応しいツールに依存して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-01-24T16:10:08Z) - Putting 3D Spatially Sparse Networks on a Diet [21.881294733075393]
本稿では, セマンティックセグメンテーションとインスタンスセグメンテーションのためのコンパクトで空間的にスパースな3Dコンブネット(WS3-ConvNet)を提案する。
我々は、コンパクトネットワークを見つけるために、様々なネットワークプルーニング戦略を採用し、我々のWS3-ConvNetが、最小限の性能損失(2-15%の低下)を、15%少ないパラメータ(1/100の圧縮率)で達成することを示す。
最後に、WS3-ConvNetの圧縮パターンを体系的に解析し、圧縮されたネットワークに共通する興味深いスパシティパターンを示し、推論をさらに高速化する。
論文 参考訳(メタデータ) (2021-12-02T15:20:15Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Invertible Residual Network with Regularization for Effective Medical
Image Segmentation [2.76240219662896]
バックプロパゲーションを用いたニューラルネットワークのトレーニングにおいて、アクティベーションメモリフットプリントを大幅に削減するために、可逆ニューラルネットワークが適用されている。
可逆残存ネットワーク(部分可逆残存ネットワーク, Partially-InvRes)と完全可逆残存ネットワーク(Fully-InvRes)の2つのバージョンを提案する。
この結果から,部分可逆ネットワークをボリュームセグメンテーションの中心として用いることにより,メモリオーバヘッドを削減できるだけでなく,非可逆的3d unetと同等なセグメンテーション性能を実現することができた。
論文 参考訳(メタデータ) (2021-03-16T13:19:59Z) - ES-Net: An Efficient Stereo Matching Network [4.8986598953553555]
既存のステレオマッチングネットワークは通常、性能を改善するために遅くて計算コストのかかる3D畳み込みを使用する。
本稿では,高性能かつ効率的な推定を実現する効率的なステレオネットワーク(esnet)を提案する。
論文 参考訳(メタデータ) (2021-03-05T20:11:39Z) - EDNet: Efficient Disparity Estimation with Cost Volume Combination and
Attention-based Spatial Residual [17.638034176859932]
既存の分散度推定は、主に4D結合ボリュームを活用し、分散回帰のための非常に深い3D畳み込みニューラルネットワーク(CNN)を構築する。
本稿では,EDNetというネットワークを効率よく分散推定する手法を提案する。
Scene FlowとKITTIデータセットの実験は、EDNetが以前の3D CNNベースの作業より優れていることを示している。
論文 参考訳(メタデータ) (2020-10-26T04:49:44Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Dynamic Region-Aware Convolution [85.20099799084026]
本稿では,複数のフィルタを対応する空間領域に自動的に割り当てる動的領域認識畳み込み(DRConv)を提案する。
ImageNet分類において、DRConvベースのShuffleNetV2-0.5xは6.3%の相対的な改善と46M乗算加算レベルで67.1%の最先端性能を達成する。
論文 参考訳(メタデータ) (2020-03-27T05:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。