論文の概要: Multi-View Stereo Network with attention thin volume
- arxiv url: http://arxiv.org/abs/2110.08556v1
- Date: Sat, 16 Oct 2021 11:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 16:35:32.033080
- Title: Multi-View Stereo Network with attention thin volume
- Title(参考訳): 注意薄いボリュームを有するマルチビューステレオネットワーク
- Authors: Zihang Wan
- Abstract要約: 複数のRGB画像から深度値を推定するための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
入力画像から支配的な情報を完全に集約する自己認識機構を導入する。
また,特徴集約に対するグループワイド相関を導入し,メモリと計算負荷を大幅に削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an efficient multi-view stereo (MVS) network for infering depth
value from multiple RGB images. Recent studies have shown that mapping the
geometric relationship in real space to neural network is an essential topic of
the MVS problem. Specifically, these methods focus on how to express the
correspondence between different views by constructing a nice cost volume. In
this paper, we propose a more complete cost volume construction approach based
on absorbing previous experience. First of all, we introduce the self-attention
mechanism to fully aggregate the dominant information from input images and
accurately model the long-range dependency, so as to selectively aggregate
reference features. Secondly, we introduce the group-wise correlation to
feature aggregation, which greatly reduces the memory and calculation burden.
Meanwhile, this method enhances the information interaction between different
feature channels. With this approach, a more lightweight and efficient cost
volume is constructed. Finally we follow the coarse to fine strategy and refine
the depth sampling range scale by scale with the help of uncertainty
estimation. We further combine the previous steps to get the attention thin
volume. Quantitative and qualitative experiments are presented to demonstrate
the performance of our model.
- Abstract(参考訳): 複数のRGB画像から深度値を推定するための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
近年の研究では、実空間における幾何学的関係をニューラルネットワークにマッピングすることがmvs問題の重要なトピックであることが示されている。
特に、これらの手法は、優れたコストボリュームを構築することにより、異なるビュー間の対応を表現する方法に焦点を当てている。
本稿では,過去の経験を吸収することに基づいて,より完全なコストボリューム構築手法を提案する。
まず、入力画像から支配的な情報を完全集約し、長距離依存を正確にモデル化し、参照特徴を選択的に集約するセルフアテンション機構を導入する。
第2に,特徴集約に対するグループワイド相関を導入し,メモリと計算負荷を大幅に削減する。
一方、この手法は異なる特徴チャネル間の情報相互作用を強化する。
このアプローチにより、より軽量で効率的なコストボリュームが構築される。
最後に、不確実性推定の助けを借りて、粗大な戦略に従い、深度サンプリング範囲のスケールを拡大する。
さらに,前回のステップを組み合わせることで,注意の薄いボリュームを得る。
本モデルの性能を示すために,定量的および定性的実験を行った。
関連論文リスト
- Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Differentiable Information Bottleneck for Deterministic Multi-view Clustering [9.723389925212567]
我々は、決定論的かつ分析的なMVCソリューションを提供する新しい微分可能情報ボトルネック(DIB)手法を提案する。
具体的には、まず、正規化されたカーネルグラム行列を利用して高次元空間の相互情報を直接適合させることを提案する。
そして、新たな相互情報測定に基づいて、解析勾配を持つ決定論的多視点ニューラルネットワークを明示的にトレーニングし、IBの原理をパラメータ化する。
論文 参考訳(メタデータ) (2024-03-23T02:13:22Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Curvature-guided dynamic scale networks for Multi-view Stereo [10.667165962654996]
本稿では,重み計算を伴わずにマッチングコストの性能を向上させるために,ロバストな特徴抽出ネットワークを学習することに焦点を当てる。
動的スケール特徴抽出ネットワーク,すなわちCDSFNetを提案する。
複数の新しい畳み込み層で構成され、それぞれが画像表面の通常の曲率でガイドされる各画素に対して適切なパッチスケールを選択することができる。
論文 参考訳(メタデータ) (2021-12-11T14:41:05Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Sequential Hierarchical Learning with Distribution Transformation for
Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。
特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。
実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文 参考訳(メタデータ) (2020-07-19T01:35:53Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z) - Learning Inverse Depth Regression for Multi-View Stereo with Correlation
Cost Volume [32.41293572426403]
深層学習は多視点ステレオ(MVS)の深部推論に有効であることが示されている。
しかし、この領域ではスケーラビリティと正確性は依然として未解決の問題である。
ステレオマッチングにおけるグループワイド相関に着想を得て,軽量なコストボリュームを構築するための平均グループワイド相関類似度尺度を提案する。
論文 参考訳(メタデータ) (2019-12-26T01:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。