論文の概要: PVSNet: Pixelwise Visibility-Aware Multi-View Stereo Network
- arxiv url: http://arxiv.org/abs/2007.07714v1
- Date: Wed, 15 Jul 2020 14:39:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:02:47.084907
- Title: PVSNet: Pixelwise Visibility-Aware Multi-View Stereo Network
- Title(参考訳): pvsnet: ピクセルワイズ可視性を考慮したマルチビューステレオネットワーク
- Authors: Qingshan Xu and Wenbing Tao
- Abstract要約: 頑健な高密度3次元再構成を実現するために,PVSNet (Pixelwise Visibility-aware multi-view Stereo Network) を提案する。
PVSNetは、近隣のさまざまなビューの可視性情報をキャプチャできる最初のディープラーニングフレームワークである。
実験によると、PVSNetは異なるデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 32.41293572426403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, learning-based multi-view stereo methods have achieved promising
results. However, they all overlook the visibility difference among different
views, which leads to an indiscriminate multi-view similarity definition and
greatly limits their performance on datasets with strong viewpoint variations.
In this paper, a Pixelwise Visibility-aware multi-view Stereo Network (PVSNet)
is proposed for robust dense 3D reconstruction. We present a pixelwise
visibility network to learn the visibility information for different
neighboring images before computing the multi-view similarity, and then
construct an adaptive weighted cost volume with the visibility information.
Moreover, we present an anti-noise training strategy that introduces disturbing
views during model training to make the pixelwise visibility network more
distinguishable to unrelated views, which is different with the existing
learning methods that only use two best neighboring views for training. To the
best of our knowledge, PVSNet is the first deep learning framework that is able
to capture the visibility information of different neighboring views. In this
way, our method can be generalized well to different types of datasets,
especially the ETH3D high-res benchmark with strong viewpoint variations.
Extensive experiments show that PVSNet achieves the state-of-the-art
performance on different datasets.
- Abstract(参考訳): 近年,学習に基づく多視点ステレオ手法が有望な成果を上げている。
しかし、それぞれ異なるビュー間の可視性の違いを見落としており、それは無差別なマルチビュー類似性定義をもたらし、強い視点変化を持つデータセット上でのパフォーマンスを大幅に制限する。
本稿では,高密度3次元再構成のために,Pixelwise Visibility-aware multi-view Stereo Network (PVSNet)を提案する。
我々は、多視点類似性を計算する前に、隣接する様々な画像の可視性情報を学ぶための画素ワイズ可視ネットワークを提案し、その可視性情報を用いた適応重み付きコストボリュームを構築する。
さらに,モデルトレーニング中に不規則な視点を導入するアンチノイズトレーニング戦略を提案し,非関連ビューに対するピクセルワイズ視認性ネットワークの識別性を高めた。
私たちの知る限りでは、PVSNetは、近隣のさまざまなビューの可視性情報をキャプチャできる最初のディープラーニングフレームワークです。
このようにして、我々の手法は異なる種類のデータセット、特に強い視点変化を持つETH3Dハイレゾベンチマークによく当てはまる。
大規模な実験により、PVSNetは異なるデータセット上で最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Learning-based Multi-View Stereo: A Survey [55.3096230732874]
MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。
ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-27T17:53:18Z) - Visibility-Aware Pixelwise View Selection for Multi-View Stereo Matching [9.915386906818485]
本稿では,新しい可視性誘導画素ワイドビュー選択方式を提案する。
参照ビューの各ピクセルで使用されるソースビューのセットを徐々に洗練する。
さらに,異なる画素に対して並列に最適な解を求めるために,Artificial Multi-Bee Colonyアルゴリズムが用いられている。
論文 参考訳(メタデータ) (2023-02-14T16:50:03Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - Vis2Mesh: Efficient Mesh Reconstruction from Unstructured Point Clouds
of Large Scenes with Learned Virtual View Visibility [17.929307870456416]
非構造点雲からのメッシュ再構築のための新しいフレームワークを提案する。
仮想ビューと従来のグラフカットベースのメッシュ生成において、学習した3Dポイントの可視性を活用します。
論文 参考訳(メタデータ) (2021-08-18T20:28:16Z) - Weak Multi-View Supervision for Surface Mapping Estimation [0.9367260794056769]
密接なアノテーションを使わずにカテゴリ別表面マッピングを学習する,弱監督型マルチビュー学習手法を提案する。
人間の顔、車、飛行機といった一般的なカテゴリの基盤となる表面形状を、それらのカテゴリの例から学習する。
論文 参考訳(メタデータ) (2021-05-04T09:46:26Z) - Contrastive Spatial Reasoning on Multi-View Line Drawings [11.102238863932255]
SPARE3Dデータセットでは、最先端の監視されたディープネットワークが低パフォーマンスのパズルを見せます。
ベースライン性能を向上させるために、他のネットワーク変更とともに単純な対比学習アプローチを提案します。
提案手法では,自己教師付きバイナリ分類ネットワークを用いて,類似する2種類の3dオブジェクトのさまざまなビュー間の線描画の違いを比較する。
論文 参考訳(メタデータ) (2021-04-27T19:05:27Z) - MVTN: Multi-View Transformation Network for 3D Shape Recognition [80.34385402179852]
本稿では,3次元形状認識のための最適視点を回帰するマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状分類のためのマルチビューネットワークと共に、エンドツーエンドで訓練することができる。
MVTNは3次元形状分類と3次元形状検索のタスクにおいて、余分な訓練監督を必要とせず、明らかな性能向上を示す。
論文 参考訳(メタデータ) (2020-11-26T11:33:53Z) - Embedded Deep Bilinear Interactive Information and Selective Fusion for
Multi-view Learning [70.67092105994598]
本稿では,上記の2つの側面に着目した,新しい多視点学習フレームワークを提案する。
特に、さまざまな深層ニューラルネットワークをトレーニングして、様々なビュー内表現を学習する。
6つの公開データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-07-13T01:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。