論文の概要: RayMVSNet: Learning Ray-based 1D Implicit Fields for Accurate Multi-View
Stereo
- arxiv url: http://arxiv.org/abs/2204.01320v1
- Date: Mon, 4 Apr 2022 08:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 00:59:48.179416
- Title: RayMVSNet: Learning Ray-based 1D Implicit Fields for Accurate Multi-View
Stereo
- Title(参考訳): RayMVSNet: 正確なマルチビューステレオのためのレイベース1Dインプリシトフィールド学習
- Authors: Junhua Xi, Yifei Shi, Yijie Wang, Yulan Guo, Kai Xu
- Abstract要約: RayMVSNetは、シーン深度を示すゼロクロスポイントを用いて、各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習する。
本手法は,従来の学習手法よりも,DTUとTurps & Templesのデータセットの上位にランク付けする。
- 参考スコア(独自算出の注目度): 35.22032072756035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based multi-view stereo (MVS) has by far centered around 3D
convolution on cost volumes. Due to the high computation and memory consumption
of 3D CNN, the resolution of output depth is often considerably limited.
Different from most existing works dedicated to adaptive refinement of cost
volumes, we opt to directly optimize the depth value along each camera ray,
mimicking the range (depth) finding of a laser scanner. This reduces the MVS
problem to ray-based depth optimization which is much more light-weight than
full cost volume optimization. In particular, we propose RayMVSNet which learns
sequential prediction of a 1D implicit field along each camera ray with the
zero-crossing point indicating scene depth. This sequential modeling, conducted
based on transformer features, essentially learns the epipolar line search in
traditional multi-view stereo. We also devise a multi-task learning for better
optimization convergence and depth accuracy. Our method ranks top on both the
DTU and the Tanks \& Temples datasets over all previous learning-based methods,
achieving overall reconstruction score of 0.33mm on DTU and f-score of 59.48%
on Tanks & Temples.
- Abstract(参考訳): 学習ベースのマルチビューステレオ(MVS)は、コストボリュームの3D畳み込みを中心にしている。
3D CNNの高計算とメモリ消費のため、出力深さの解像度は大幅に制限されることが多い。
コストボリュームを適応的に改善するための既存の作業とは異なり、我々はレーザースキャナーの範囲(深度)を模倣して、各カメラ線に沿った深さ値を直接最適化する。
これによりmvsの問題は、フルコストのボリューム最適化よりもはるかに軽量なレイベースの深さ最適化に抑えられる。
特に,シーン深度を示すゼロクロスポイントを用いて,各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習するRayMVSNetを提案する。
この逐次モデリングは変圧器の特徴に基づいて行われ、従来のマルチビューステレオのエピポーラ線探索を本質的に学習する。
また,最適化収束と深度精度向上のためのマルチタスク学習も考案した。
我々の手法は、DTUとタンク&テンプルのデータセットの上位にランクされ、DTUでは0.33mm、タンク&テンプルでは59.48%となっている。
関連論文リスト
- NPLMV-PS: Neural Point-Light Multi-View Photometric Stereo [32.39157133181186]
本稿では,新しい多視点測光ステレオ(MVPS)法を提案する。
我々の研究は、現在最先端のマルチビューPS-NeRFやスーパーノーマルと異なり、ピクセルごとの強度レンダリングを明示的に活用しています。
提案手法は,DiLiGenT-MVベンチマークで提案した古典的MVPS手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-20T14:26:07Z) - Stereo-Knowledge Distillation from dpMV to Dual Pixels for Light Field Video Reconstruction [12.519930982515802]
この研究は、暗黙的または明示的に、高精度な暗黒ステレオ知識を効率の良いデュアルピクセルの学生ネットワークに蒸留することで、忠実な再構築を可能にするという仮説を立てた。
暗黒知識蒸留仮説を検証するため,第1,第1,第2の2画素ビデオデータセットdpMVを収集した。
これらの手法は純粋に単分子解よりも優れており、特にデュアルピクセルからの忠実なガイダンスを用いて、前景と背景の分離に挑戦する。
論文 参考訳(メタデータ) (2024-05-20T06:34:47Z) - SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文 参考訳(メタデータ) (2023-08-17T14:52:11Z) - RayMVSNet++: Learning Ray-based 1D Implicit Fields for Accurate
Multi-View Stereo [21.209964556493368]
RayMVSNetは、シーン深度を示すゼロクロスポイントを用いて、各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習する。
RayMVSNet++はScanNetデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-16T02:10:47Z) - Multiview Stereo with Cascaded Epipolar RAFT [73.7619703879639]
複数の校正画像から高密度点雲などの3次元モデルを再構成する重要な3次元視覚課題であるマルチビューステレオ(MVS)に対処する。
CER-MVSは、RAFT(Recurrent All-Pairs Field Transforms)アーキテクチャに基づく光学フローのための新しいアプローチであるCER-MVSを提案する。CER-MVSは、RAFTに5つの新しい変更を加える: エピポーラコストボリューム、コストボリュームカスケード、コストボリュームのマルチビュー融合、動的監視、深度マップのマルチ解像度融合。
論文 参考訳(メタデータ) (2022-05-09T18:17:05Z) - DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors [60.88824519770208]
カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
本稿では,2次元から3次元のパイプラインを通しての情報フローを改善することを目的としたDSGN++を提案する。
論文 参考訳(メタデータ) (2022-04-06T18:43:54Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。