論文の概要: MVS2D: Efficient Multi-view Stereo via Attention-Driven 2D Convolutions
- arxiv url: http://arxiv.org/abs/2104.13325v1
- Date: Tue, 27 Apr 2021 16:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 13:26:41.554182
- Title: MVS2D: Efficient Multi-view Stereo via Attention-Driven 2D Convolutions
- Title(参考訳): mvs2d:注意駆動型2次元畳み込みによる高効率マルチビューステレオ
- Authors: Zhenpei Yang, Zhile Ren, Qi Shan, Qixing Huang
- Abstract要約: MVS2Dは、注意メカニズムを介してマルチビュー制約をシングルビューネットワークにシームレスに統合する高効率なマルチビューステレオアルゴリズムです。
提案手法は精度の高い深さ推定を行い,scannet,sun3d,rgbdに挑戦する。
- 参考スコア(独自算出の注目度): 47.712764089489355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has made significant impacts on multi-view stereo systems.
State-of-the-art approaches typically involve building a cost volume, followed
by multiple 3D convolution operations to recover the input image's pixel-wise
depth. While such end-to-end learning of plane-sweeping stereo advances public
benchmarks' accuracy, they are typically very slow to compute. We present
MVS2D, a highly efficient multi-view stereo algorithm that seamlessly
integrates multi-view constraints into single-view networks via an attention
mechanism. Since MVS2D only builds on 2D convolutions, it is at least 4x faster
than all the notable counterparts. Moreover, our algorithm produces precise
depth estimations, achieving state-of-the-art results on challenging benchmarks
ScanNet, SUN3D, and RGBD. Even under inexact camera poses, our algorithm still
out-performs all other algorithms. Supplementary materials and code will be
available at the project page: https://zhenpeiyang.github.io/MVS2D
- Abstract(参考訳): ディープラーニングはマルチビューステレオシステムに大きな影響を与えている。
最先端のアプローチは通常、コストボリュームの構築と、入力画像の画素幅の深さを回復する複数の3D畳み込み操作を含む。
このようなプレーンスウィーピングステレオのエンドツーエンド学習は、公開ベンチマークの精度を向上させるが、一般に計算は非常に遅い。
本稿では,マルチビュー制約を単一ビューネットワークにシームレスに統合する,高効率なマルチビューステレオアルゴリズム MVS2D を提案する。
MVS2Dは2Dコンボリューションのみをベースとしているため、すべての注目すべきコンボリューションよりも少なくとも4倍高速である。
さらに,本アルゴリズムは精度の高い深さ推定を行い,scannet,sun3d,rgbdに挑戦する。
不正確なカメラのポーズでも、我々のアルゴリズムは他のアルゴリズムよりも優れています。
補足資料とコードはプロジェクトページで入手できる。 https://zhenpeiyang.github.io/mvs2d
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Spatiotemporal Modeling Encounters 3D Medical Image Analysis:
Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。
より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。
提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文 参考訳(メタデータ) (2023-07-24T14:53:23Z) - Unsupervised Multi-view Pedestrian Detection [12.882317991955228]
2D-3Dマッピングによる多視点歩行者検出器の学習におけるアノテーションの必要性を排除するために,unsupervised Multi-view Pedestrian Detection approach (UMPD)を提案する。
SISは、疑似ラベルとして2次元歩行者マスクに変換される多視点画像の教師なし表現を抽出することを提案する。
GVDは、多視点2D画像を3Dボリュームにエンコードし、3Dから2Dマッピングで訓練された2Dから3Dの幾何学的投影を通して、ボクセルの密度と色を予測する。
論文 参考訳(メタデータ) (2023-05-21T13:27:02Z) - BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection
with Dynamic Temporal Stereo [15.479670314689418]
本稿では,マッチング候補のスケールを動的に選択するための効果的な時間ステレオ手法を提案する。
我々は、より価値のある候補を更新するための反復アルゴリズムを設計し、移動可能な候補に適応する。
BEVStereoは、nuScenesデータセットのカメラのみのトラックで、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-09-21T10:21:25Z) - DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors [60.88824519770208]
カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
本稿では,2次元から3次元のパイプラインを通しての情報フローを改善することを目的としたDSGN++を提案する。
論文 参考訳(メタデータ) (2022-04-06T18:43:54Z) - YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection [6.5702792909006735]
YOLOStereo3Dは1つのGPUでトレーニングされ、10fps以上で動作する。
LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-03-17T03:43:54Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。