論文の概要: MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching
- arxiv url: http://arxiv.org/abs/2108.09770v1
- Date: Sun, 22 Aug 2021 16:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:43:19.011834
- Title: MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching
- Title(参考訳): MobileStereoNet: ステレオマッチングのための軽量ディープネットワークを目指して
- Authors: Faranak Shamsafar, Samuel Woerz, Rafia Rahim, Andreas Zell
- Abstract要約: 複雑度を低減し,精度を犠牲にすることなく,ステレオビジョンのための2つの光モデルを提案する。
我々は2D MobileNetブロックを活用し、ステレオビジョンアプリケーションのためにそれを3Dに拡張する。
実験の結果,提案した2D/3Dネットワークは計算コストを効果的に削減できることがわかった。
- 参考スコア(独自算出の注目度): 14.93689986544889
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent methods in stereo matching have continuously improved the accuracy
using deep models. This gain, however, is attained with a high increase in
computation cost, such that the network may not fit even on a moderate GPU.
This issue raises problems when the model needs to be deployed on
resource-limited devices. For this, we propose two light models for stereo
vision with reduced complexity and without sacrificing accuracy. Depending on
the dimension of cost volume, we design a 2D and a 3D model with
encoder-decoders built from 2D and 3D convolutions, respectively. To this end,
we leverage 2D MobileNet blocks and extend them to 3D for stereo vision
application. Besides, a new cost volume is proposed to boost the accuracy of
the 2D model, making it performing close to 3D networks. Experiments show that
the proposed 2D/3D networks effectively reduce the computational expense
(27%/95% and 72%/38% fewer parameters/operations in 2D and 3D models,
respectively) while upholding the accuracy. Our code is available at
https://github.com/cogsys-tuebingen/mobilestereonet.
- Abstract(参考訳): 近年のステレオマッチング手法は深部モデルを用いて精度を継続的に改善している。
しかし、この利益は、ネットワークが適度なGPUにも収まらないように、高い計算コストで達成されている。
この問題は、モデルがリソース制限されたデバイスにデプロイされる必要がある場合に問題を引き起こす。
そこで本研究では,複雑さを低減し,精度を犠牲にすることなく,ステレオビジョンのための2つの軽量モデルを提案する。
コストボリュームの次元に応じて、2dと3dの畳み込みで構成されたエンコーダデコーダを備えた2dモデルと3dモデルを設計する。
この目的のために、2D MobileNetブロックを活用し、ステレオビジョンアプリケーションのためにそれを3Dに拡張する。
さらに,2次元モデルの精度を高めるために新たなコストボリュームを提案し,3次元ネットワークに近い性能を実現した。
実験の結果,提案した2D/3Dネットワークは,精度を保ちながら,計算コスト(27%/95%,72%/38%)を効果的に削減できることがわかった。
私たちのコードはhttps://github.com/cogsys-tuebingen/mobilestereonetで利用可能です。
関連論文リスト
- Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection [6.5702792909006735]
YOLOStereo3Dは1つのGPUでトレーニングされ、10fps以上で動作する。
LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-03-17T03:43:54Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation [7.559220068352681]
本稿では,2次元と3次元で手とオブジェクトのポーズをリアルタイムに推定するHOPE-Netという軽量モデルを提案する。
我々のネットワークは2つの適応グラフ畳み込みニューラルネットワークのカスケードを用いており、1つは手関節と物体角の2D座標を推定し、もう1つは2D座標を3Dに変換する。
論文 参考訳(メタデータ) (2020-03-31T19:01:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。