論文の概要: AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network
- arxiv url: http://arxiv.org/abs/2108.03824v1
- Date: Mon, 9 Aug 2021 06:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 02:01:11.528419
- Title: AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network
- Title(参考訳): AA-RMVSNet:Adaptive Aggregation Recurrent Multi-view Stereo Network
- Authors: Zizhuang Wei, Qingtian Zhu, Chen Min, Yisong Chen and Guoping Wang
- Abstract要約: 本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
- 参考スコア(独自算出の注目度): 8.127449025802436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a novel recurrent multi-view stereo network based
on long short-term memory (LSTM) with adaptive aggregation, namely AA-RMVSNet.
We firstly introduce an intra-view aggregation module to adaptively extract
image features by using context-aware convolution and multi-scale aggregation,
which efficiently improves the performance on challenging regions, such as thin
objects and large low-textured surfaces. To overcome the difficulty of varying
occlusion in complex scenes, we propose an inter-view cost volume aggregation
module for adaptive pixel-wise view aggregation, which is able to preserve
better-matched pairs among all views. The two proposed adaptive aggregation
modules are lightweight, effective and complementary regarding improving the
accuracy and completeness of 3D reconstruction. Instead of conventional 3D
CNNs, we utilize a hybrid network with recurrent structure for cost volume
regularization, which allows high-resolution reconstruction and finer
hypothetical plane sweep. The proposed network is trained end-to-end and
achieves excellent performance on various datasets. It ranks $1^{st}$ among all
submissions on Tanks and Temples benchmark and achieves competitive results on
DTU dataset, which exhibits strong generalizability and robustness.
Implementation of our method is available at
https://github.com/QT-Zhu/AA-RMVSNet.
- Abstract(参考訳): 本稿では,アダプティブアグリゲーション(AA-RMVSNet)を備えた長寿命メモリ(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを導入する。
複雑なシーンにおけるオクルージョンの変化の難しさを克服するために,全ビュー間でより適合したペアを保存できる適応型画素別ビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
2つのアダプティブアグリゲーションモジュールは3次元再構成の精度と完全性を改善するために軽量で効果的で相補的である。
従来の3次元CNNの代わりに,高分解能再構成とより微細な仮説平面スイープを実現するために,繰り返し構造を持つハイブリッドネットワークを利用する。
提案するネットワークはエンドツーエンドで訓練され,様々なデータセット上で優れた性能を発揮する。
タンクとテンプルのベンチマークの全ての提出物のうち、$1^{st} をランク付けし、強力な一般化性と堅牢性を示すDTUデータセットの競争結果を達成する。
このメソッドの実装はhttps://github.com/qt-zhu/aa-rmvsnetで利用可能である。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency [0.0]
iiANET(Inception Inspired Attention Network)は,複雑な画像の長距離依存性を捉えるために設計された,効率的なハイブリッドモデルである。
基本的なビルディングブロックであるiiABlockはグローバル2D-MHSA(Multi-Head Self-Attention)をレジスタ、MBConv2(MobileNetV2ベースの畳み込み)、拡張畳み込みを並列に統合する。
各iABlockの終端にECANET(Efficient Channel Attention Network)を連続的に統合し、チャネルワイドアテンションを校正し、モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-07-10T12:39:02Z) - SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical
Refinement and EM optimization [6.886220026399106]
テクスチャレス領域の3次元再構成における課題を解決するために,多視点ステレオ (SD-MVS) を導入する。
私たちは、シーン内のセグメンテーションインスタンスを区別するためにSAM(Segment Anything Model)を採用した最初の人です。
球面座標と正規点の勾配勾配と深度の画素方向探索間隔を組み合わせた独自の精細化戦略を提案する。
論文 参考訳(メタデータ) (2024-01-12T05:25:57Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - Out-of-Domain Human Mesh Reconstruction via Dynamic Bilevel Online
Adaptation [87.85851771425325]
我々は、人間のメッシュ再構成モデルをドメイン外ストリーミングビデオに適用する際の新しい問題を考える。
オンライン適応によってこの問題に対処し、テスト中のモデルのバイアスを徐々に修正します。
動的バイレベルオンライン適応アルゴリズム(DynaBOA)を提案する。
論文 参考訳(メタデータ) (2021-11-07T07:23:24Z) - Do End-to-end Stereo Algorithms Under-utilize Information? [7.538482310185133]
本稿では,2次元および3次元の畳み込みネットワークに適応フィルタリングと半グローバルアグリゲーションを組み込むことによって,エンドツーエンドのステレオマッチングを実現する方法を示す。
改善は、画像からのRGB情報を信号として利用し、マッチングプロセスを動的にガイドすることによる。
論文 参考訳(メタデータ) (2020-10-14T18:32:39Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z) - Continual Adaptation for Deep Stereo [52.181067640300014]
本稿では,難易度と変化の激しい環境に対処するために,深層ステレオネットワークの継続的適応パラダイムを提案する。
我々のパラダイムでは、オンラインモデルに継続的に適応するために必要な学習信号は、右から左への画像ワープや従来のステレオアルゴリズムによって自己監督から得られる。
我々のネットワークアーキテクチャと適応アルゴリズムは、初めてのリアルタイム自己適応型ディープステレオシステムを実現する。
論文 参考訳(メタデータ) (2020-07-10T08:15:58Z) - Deep Adaptive Inference Networks for Single Image Super-Resolution [72.7304455761067]
シングルイメージ超解像(SISR)は、ディープ畳み込みニューラルネットワーク(CNN)の展開により、近年大きく進歩している。
本稿では,深部SISR(AdaDSR)の適応型推論ネットワークを活用することで,この問題に対処する。
我々のAdaDSRは、SISRモデルをバックボーンとし、画像の特徴とリソース制約を入力として取り、ローカルネットワーク深さのマップを予測する軽量アダプタモジュールを備える。
論文 参考訳(メタデータ) (2020-04-08T10:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。