論文の概要: UAMD-Net: A Unified Adaptive Multimodal Neural Network for Dense Depth
Completion
- arxiv url: http://arxiv.org/abs/2204.07791v1
- Date: Sat, 16 Apr 2022 12:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 07:50:40.986585
- Title: UAMD-Net: A Unified Adaptive Multimodal Neural Network for Dense Depth
Completion
- Title(参考訳): UAMD-Net:Dense Depth Completionのための統一適応型マルチモーダルニューラルネットワーク
- Authors: Guancheng Chen, Junli Lin and Huabiao Qin
- Abstract要約: 両眼ステレオマッチングの融合とスパース点雲からの弱い制約に基づく,新しいマルチモーダルニューラルネットワークUAMD-Netを提案する。
提案手法はロバストな結果を生成し,他の最先端手法よりも優れる。
- 参考スコア(独自算出の注目度): 0.618778092044887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth prediction is a critical problem in robotics applications especially
autonomous driving. Generally, depth prediction based on binocular stereo
matching and fusion of monocular image and laser point cloud are two mainstream
methods. However, the former usually suffers from overfitting while building
cost volume, and the latter has a limited generalization due to the lack of
geometric constraint. To solve these problems, we propose a novel multimodal
neural network, namely UAMD-Net, for dense depth completion based on fusion of
binocular stereo matching and the weak constrain from the sparse point clouds.
Specifically, the sparse point clouds are converted to sparse depth map and
sent to the multimodal feature encoder (MFE) with binocular image, constructing
a cross-modal cost volume. Then, it will be further processed by the multimodal
feature aggregator (MFA) and the depth regression layer. Furthermore, the
existing multimodal methods ignore the problem of modal dependence, that is,
the network will not work when a certain modal input has a problem. Therefore,
we propose a new training strategy called Modal-dropout which enables the
network to be adaptively trained with multiple modal inputs and inference with
specific modal inputs. Benefiting from the flexible network structure and
adaptive training method, our proposed network can realize unified training
under various modal input conditions. Comprehensive experiments conducted on
KITTI depth completion benchmark demonstrate that our method produces robust
results and outperforms other state-of-the-art methods.
- Abstract(参考訳): 深度予測はロボット応用、特に自律運転において重要な問題である。
一般に、両眼ステレオマッチングと単眼画像とレーザー点雲の融合に基づく深度予測は2つの主流手法である。
しかし、通常、前者はコストボリュームを構築する際に過剰にフィットし、後者は幾何学的制約の欠如により限定的な一般化を持つ。
これらの問題を解決するために,両眼ステレオマッチングの融合とスパース点雲からの弱い制約に基づく深度補完のための新しいマルチモーダルニューラルネットワークUAMD-Netを提案する。
具体的には、スパース点雲をスパース深度マップに変換し、双眼鏡画像付きマルチモーダル特徴エンコーダ(MFE)に送信し、クロスモーダルコストボリュームを構築する。
その後、マルチモーダル特徴集約(mfa)と深さ回帰層によってさらに処理される。
さらに、既存のマルチモーダル手法は、特定のモーダル入力に問題がある場合にネットワークが機能しないという、モーダル依存の問題を無視している。
そこで本研究では,複数のモーダル入力と特定のモーダル入力による推論により,ネットワークを適応的にトレーニングできるModal-dropoutという新たなトレーニング戦略を提案する。
フレキシブルなネットワーク構造と適応的なトレーニング手法を利用して,様々なモード入力条件下での統一トレーニングを実現する。
kitti depth completionベンチマークで行った包括的な実験により,本手法が頑健な結果をもたらし,他の最先端手法よりも優れていることが証明された。
関連論文リスト
- Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - Non-parametric Depth Distribution Modelling based Depth Inference for
Multi-view Stereo [43.415242967722804]
最近のコストボリュームピラミッドに基づくディープニューラルネットワークは、多視点ステレオからの深度推論に高解像度の画像を効率的に活用する可能性を解き放った。
一般に、これらのアプローチは各ピクセルの深さが一様分布に従うと仮定する。
本研究では,非パラメトリック深度分布モデルを用いて,一様および多モード分布の画素を扱うコストボリュームを構築することを提案する。
論文 参考訳(メタデータ) (2022-05-08T05:13:04Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Efficient Real-Time Image Recognition Using Collaborative Swarm of UAVs
and Convolutional Networks [9.449650062296824]
本稿では,画像の分類を行うリソース制約付きUAV群に推論要求を分散する戦略を提案する。
画像の取得と最終的な決定の待ち時間を最小限に抑える最適化問題としてモデルを定式化する。
私たちは、利用可能なUAV間で最高のレイテンシを提供するレイヤ配置戦略を見つけるために、オンラインソリューション、すなわちDistInferenceを導入します。
論文 参考訳(メタデータ) (2021-07-09T19:47:02Z) - Deep Networks and the Multiple Manifold Problem [15.144495799445824]
マシンビジョンにおける応用をモデル化した二項分類タスクである多重多様体問題について検討し、深部完全連結ニューラルネットワークを用いて単位球面の2つの低次元部分多様体を分離する。
ネットワーク深さ$L$がデータの幾何的および統計的性質に対して大きい場合、ネットワーク幅は$L$で十分大きく成長することを示す。
本分析は,実際に動機付けられたモデル問題の文脈における奥行きと幅の具体的な利点を示す。
論文 参考訳(メタデータ) (2020-08-25T19:20:00Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Deep Multi-Task Learning for Cooperative NOMA: System Design and
Principles [52.79089414630366]
我々は,近年のディープラーニング(DL)の進歩を反映した,新しいディープ・コラボレーティブなNOMAスキームを開発する。
我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-07-27T12:38:37Z) - ESPN: Extremely Sparse Pruned Networks [50.436905934791035]
簡単な反復マスク探索法により,非常に深いネットワークの最先端の圧縮を実現することができることを示す。
本アルゴリズムは,シングルショット・ネットワーク・プルーニング法とロッテ・ティケット方式のハイブリッド・アプローチを示す。
論文 参考訳(メタデータ) (2020-06-28T23:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。