論文の概要: Adaptive Context-Aware Multi-Modal Network for Depth Completion
- arxiv url: http://arxiv.org/abs/2008.10833v1
- Date: Tue, 25 Aug 2020 06:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 03:50:54.933497
- Title: Adaptive Context-Aware Multi-Modal Network for Depth Completion
- Title(参考訳): 奥行き完了のための適応コンテキストアウェアマルチモーダルネットワーク
- Authors: Shanshan Zhao, Mingming Gong, Huan Fu, and Dacheng Tao
- Abstract要約: 我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
- 参考スコア(独自算出の注目度): 107.15344488719322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth completion aims to recover a dense depth map from the sparse depth data
and the corresponding single RGB image. The observed pixels provide the
significant guidance for the recovery of the unobserved pixels' depth. However,
due to the sparsity of the depth data, the standard convolution operation,
exploited by most of existing methods, is not effective to model the observed
contexts with depth values. To address this issue, we propose to adopt the
graph propagation to capture the observed spatial contexts. Specifically, we
first construct multiple graphs at different scales from observed pixels. Since
the graph structure varies from sample to sample, we then apply the attention
mechanism on the propagation, which encourages the network to model the
contextual information adaptively. Furthermore, considering the mutli-modality
of input data, we exploit the graph propagation on the two modalities
respectively to extract multi-modal representations. Finally, we introduce the
symmetric gated fusion strategy to exploit the extracted multi-modal features
effectively. The proposed strategy preserves the original information for one
modality and also absorbs complementary information from the other through
learning the adaptive gating weights. Our model, named Adaptive Context-Aware
Multi-Modal Network (ACMNet), achieves the state-of-the-art performance on two
benchmarks, {\it i.e.}, KITTI and NYU-v2, and at the same time has fewer
parameters than latest models. Our code is available at:
\url{https://github.com/sshan-zhao/ACMNet}.
- Abstract(参考訳): 深度補完は,スパース深度データと対応する単一RGB画像から深度マップを復元することを目的としている。
観察されたピクセルは、観測されていないピクセルの深さを回復するための重要なガイダンスを提供する。
しかし, 深度データの疎大さから, 従来の手法のほとんどを応用した標準畳み込み演算は, 観測された文脈を深度値でモデル化するには有効ではない。
この問題に対処するために,観測された空間コンテキストをキャプチャするグラフ伝搬法を提案する。
具体的には、まず観測された画素から異なるスケールで複数のグラフを構築する。
グラフ構造はサンプルによって異なるため,伝播に注意機構を適用し,ネットワークが文脈情報を適応的にモデル化することを奨励する。
さらに,入力データのミュータリモダリティを考慮し,それぞれ2つのモダリティのグラフ伝搬を活用し,マルチモダリティ表現を抽出する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
提案手法は,あるモダリティに対する元の情報を保存し,適応ゲーティング重みを学習することで,他方から補完的な情報を吸収する。
本モデルはacmnet(adaptive context-aware multi-modal network)と名付けられ,2つのベンチマーク(kitti,nyu-v2)において最先端の性能を実現し,同時にパラメータも最新のモデルよりも少ない。
私たちのコードは、 \url{https://github.com/sshan-zhao/acmnet} で利用可能です。
関連論文リスト
- HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Monocular Depth Distribution Alignment with Low Computation [15.05244258071472]
我々は、軽量ネットワークと重軽量ネットワークの精度コントラストの大部分をモデル化する。
DANetは2つの領域ごとに深度の特徴の違いを知覚することにより、合理的なシーン構造を予測する傾向にある。
DANetは、深さ分布形状とシーン深度範囲のアライメントにより、分布のドリフトを著しく軽減し、従来の重み付け手法と同等の性能を達成する。
論文 参考訳(メタデータ) (2022-03-09T06:18:26Z) - Multi-View Stereo Network with attention thin volume [0.0]
複数のRGB画像から深度値を推定するための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
入力画像から支配的な情報を完全に集約する自己認識機構を導入する。
また,特徴集約に対するグループワイド相関を導入し,メモリと計算負荷を大幅に削減する。
論文 参考訳(メタデータ) (2021-10-16T11:51:23Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。