論文の概要: MVSTER: Epipolar Transformer for Efficient Multi-View Stereo
- arxiv url: http://arxiv.org/abs/2204.07346v1
- Date: Fri, 15 Apr 2022 06:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 21:41:06.371420
- Title: MVSTER: Epipolar Transformer for Efficient Multi-View Stereo
- Title(参考訳): MVSTER:高効率マルチビューステレオ用エピポーラ変換器
- Authors: Xiaofeng Wang, Zheng Zhu, Fangbo Qin, Yun Ye, Guan Huang, Xu Chi,
Yijia He and Xingang Wang
- Abstract要約: 学習ベースMulti-View Stereo法では,ソース画像を3Dボリュームにワープする。
従来の手法では、余分なネットワークを利用して2次元情報を融合キューとして学習し、3次元空間相関を利用して計算コストを増大させる。
本稿では,2次元のセマンティクスと3次元の空間的関連性の両方を効率的に学習するために,提案したエピポーラ変換器を利用するMVSTERを提案する。
- 参考スコア(独自算出の注目度): 26.640495084316925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based Multi-View Stereo (MVS) methods warp source images into the
reference camera frustum to form 3D volumes, which are fused as a cost volume
to be regularized by subsequent networks. The fusing step plays a vital role in
bridging 2D semantics and 3D spatial associations. However, previous methods
utilize extra networks to learn 2D information as fusing cues, underusing 3D
spatial correlations and bringing additional computation costs. Therefore, we
present MVSTER, which leverages the proposed epipolar Transformer to learn both
2D semantics and 3D spatial associations efficiently. Specifically, the
epipolar Transformer utilizes a detachable monocular depth estimator to enhance
2D semantics and uses cross-attention to construct data-dependent 3D
associations along epipolar line. Additionally, MVSTER is built in a cascade
structure, where entropy-regularized optimal transport is leveraged to
propagate finer depth estimations in each stage. Extensive experiments show
MVSTER achieves state-of-the-art reconstruction performance with significantly
higher efficiency: Compared with MVSNet and CasMVSNet, our MVSTER achieves 34%
and 14% relative improvements on the DTU benchmark, with 80% and 51% relative
reductions in running time. MVSTER also ranks first on Tanks&Temples-Advanced
among all published works. Code is released at https://github.com/JeffWang987.
- Abstract(参考訳): 学習ベースのMulti-View Stereo (MVS) は、ソース画像を基準カメラフラストラムにワープして3Dボリュームを形成する。
fusingステップは、2dセマンティクスと3d空間関連を橋渡しする上で重要な役割を果たす。
しかし、従来の手法では、余分なネットワークを利用して2次元情報を融合キューとして学習し、3次元空間相関を利用して計算コストを増大させる。
そこで,提案手法を用いて2次元意味と3次元空間的関連を効率的に学習するMVSTERを提案する。
具体的には、エピポーラトランスフォーマーは、剥離可能な単眼深度推定器を用いて2Dセマンティクスを強化し、データ依存3Dアソシエーションをエピポーラ線に沿って構築する。
さらにmvsterはカスケード構造に構築されており、エントロピー正規化最適輸送を利用して各段階でより詳細な深さ推定を行う。
MVSNet や CasMVSNet と比較して,我々のMVSTER は DTU ベンチマークで 34% と 14% の相対的改善を実現し,実行時間の80% と 51% の相対的削減を実現しています。
MVSTERは全ての出版作品の中で第1位である。
コードはhttps://github.com/jeffwang987でリリースされる。
関連論文リスト
- SparseFusion: Efficient Sparse Multi-Modal Fusion Framework for Long-Range 3D Perception [47.000734648271006]
SparseFusionは,スパース3次元特徴を基盤として構築され,より効率的な長距離知覚を実現する新しい多モード融合フレームワークである。
提案したモジュールは,前景オブジェクトが存在可能なグリッドのみを埋める意味的側面と幾何学的側面の両方から疎結合を導入する。
長距離Argoverse2データセットでは、SparseFusionはメモリフットプリントを減らし、密度の高い検出器に比べて約2倍の速度で推論を高速化する。
論文 参考訳(メタデータ) (2024-03-15T05:59:10Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Monocular Scene Reconstruction with 3D SDF Transformers [17.565474518578178]
本研究では,より優れた3次元特徴集約のために3次元CNNを代替するSDFトランスフォーマーネットワークを提案する。
複数のデータセットの実験により、この3Dトランスフォーマーネットワークはより正確で完全な再構成を生成することが示された。
論文 参考訳(メタデータ) (2023-01-31T09:54:20Z) - VTP: Volumetric Transformer for Multi-view Multi-person 3D Pose
Estimation [4.603321798937854]
Volumetric Transformer Pose estimator (VTP) はマルチビュー・マルチパーソン・ヒューマン・ポーズ推定のための最初の3Dトランスフォーマー・フレームワークである。
VTPは、すべてのカメラビューの2Dキーポイントから機能を集約し、3Dボクセル空間における関係をエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2022-05-25T09:26:42Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - SRH-Net: Stacked Recurrent Hourglass Network for Stereo Matching [33.66537830990198]
本研究では,3次元畳み込みフィルタで用いる4次元立方体体積を相違点方向の逐次コストマップに分解する。
新たなリカレントモジュールであるスタックド・リカレント・ホアーグラス(SRH)が,各コストマップの処理のために提案されている。
提案アーキテクチャはエンドツーエンドのパイプラインで実装され、パブリックデータセットで評価される。
論文 参考訳(メタデータ) (2021-05-25T00:10:56Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。