論文の概要: Rethinking the Multi-view Stereo from the Perspective of Rendering-based
Augmentation
- arxiv url: http://arxiv.org/abs/2303.06418v1
- Date: Sat, 11 Mar 2023 14:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:11:22.735767
- Title: Rethinking the Multi-view Stereo from the Perspective of Rendering-based
Augmentation
- Title(参考訳): レンダリングに基づく拡張の観点からのマルチビューステレオの再考
- Authors: Chenjie Cao, Xinlin Ren, Xiangyang Xue, Yanwei Fu
- Abstract要約: GigaMVSは、既存のMulti-View Stereo (MVS)アルゴリズムにいくつかの課題を提示している。
まず,最先端の学習ベースMVS手法である-MVSFormerを適用し,難解なシナリオを克服する。
ACMMP、OpenMVS、RealCaptureといった従来のPatchMatchアルゴリズムを利用して、大きなシーンの完全性をさらに向上する。
- 参考スコア(独自算出の注目度): 71.2289832226846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GigaMVS presents several challenges to existing Multi-View Stereo (MVS)
algorithms for its large scale, complex occlusions, and gigapixel images. To
address these problems, we first apply one of the state-of-the-art
learning-based MVS methods, --MVSFormer, to overcome intractable scenarios such
as textureless and reflections regions suffered by traditional PatchMatch
methods, but it fails in a few large scenes' reconstructions. Moreover,
traditional PatchMatch algorithms such as ACMMP, OpenMVS, and RealityCapture
are leveraged to further improve the completeness in large scenes. Furthermore,
to unify both advantages of deep learning methods and the traditional
PatchMatch, we propose to render depth and color images to further fine-tune
the MVSFormer model. Notably, we find that the MVS method could produce much
better predictions through rendered images due to the coincident illumination,
which we believe is significant for the MVS community. Thus, MVSFormer is
capable of generalizing to large-scale scenes and complementarily solves the
textureless reconstruction problem. Finally, we have assembled all point clouds
mentioned above \textit{except ones from RealityCapture} and ranked Top-1 on
the competitive GigaReconstruction.
- Abstract(参考訳): GigaMVSは、既存のMulti-View Stereo(MVS)アルゴリズムに対して、その大規模、複雑なオクルージョン、およびギガピクセル画像に対するいくつかの課題を提示している。
これらの問題に対処するために,我々はまず,最先端の学習ベースmvs手法 --mvsformer を適用し,従来のパッチマッチ法で被るテクスチャレス領域やリフレクション領域などの難解なシナリオを克服したが,いくつかの大きなシーンの再構成では失敗する。
さらに、ACMMP、OpenMVS、RealCaptureといった従来のPatchMatchアルゴリズムを利用して、大規模なシーンの完全性をさらに向上する。
さらに、深層学習手法と従来のPatchMatchの両方の利点を統合するために、深度とカラー画像を描画してMVSFormerモデルをさらに微調整することを提案する。
特に、MVS法は、同期照明によるレンダリング画像により、より優れた予測を実現できることが分かり、MVSコミュニティにとって重要であると信じている。
したがって、MVSFormerは大規模シーンに一般化することができ、テクスチャレス再構築問題を補完的に解決することができる。
最後に、上記の \textit{ except one from realitycapture} のすべてのポイントクラウドを組み立て、競合であるgigareconstruction でトップ1にランク付けしました。
関連論文リスト
- MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds [56.77548728485841]
本稿では,高速な単一ステージフィードフォワードネットワークMV-DUSt3Rを提案する。
コアとなるのはマルチビューデコーダブロックで、単一の参照ビューを考慮しながら、任意のビュー間で情報を交換する。
さらに,参照ビュー選択に頑健な手法として,参照ビュー選択の異なる情報を融合するために,参照ビューブロックを用いたMV-DUSt3R+を提案する。
論文 参考訳(メタデータ) (2024-12-09T20:34:55Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いて高精細ビデオ逆問題を解決するためのフレームワークを提案する。
提案手法は遅延空間拡散モデルを用いて,映像品質と解像度の向上を実現する。
従来の手法とは異なり,本手法では複数のアスペクト比をサポートし,1つのGPU上で2.5分以内でHD解像度の再構成を行う。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - MP-MVS: Multi-Scale Windows PatchMatch and Planar Prior Multi-View
Stereo [7.130834755320434]
レジリエントで効果的なマルチビューステレオアプローチ(MP-MVS)を提案する。
マルチスケールウィンドウPatchMatch (mPM) を設計し, 信頼性の高い非テクスチャ領域の深さを求める。
他のマルチスケールアプローチとは対照的に、より高速で、PatchMatchベースのMVSアプローチに容易に拡張できる。
論文 参考訳(メタデータ) (2023-09-23T07:30:42Z) - Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。
導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-30T01:53:14Z) - FPANet: Frequency-based Video Demoireing using Frame-level Post Alignment [10.556848553421158]
FPANetは、周波数領域と空間領域の両方でフィルタを学習する画像-ビデオ復調ネットワークである。
提案手法の有効性を,一般公開された大規模データセットを用いて実証する。
論文 参考訳(メタデータ) (2023-01-18T06:37:24Z) - Revisiting PatchMatch Multi-View Stereo for Urban 3D Reconstruction [1.1011268090482573]
PatchMatch Multi-View Stereo (MVS) に基づく画像に基づく都市シナリオの3次元再構築のための完全なパイプラインを提案する。
提案手法は、KITTIデータセット上の古典的MVSアルゴリズムと単分子深度ネットワークの両方に対して慎重に評価される。
論文 参考訳(メタデータ) (2022-07-18T08:45:54Z) - RIAV-MVS: Recurrent-Indexing an Asymmetric Volume for Multi-View Stereo [20.470182157606818]
「学習から最適化」パラダイムは、平面スウィーピングコストボリュームを反復的にインデックス化し、畳み込みGated Recurrent Unit(GRU)を介して深度マップを回帰する。
実世界のMVSデータセットについて広範な実験を行い、本手法が内部データセット評価とクロスデータセット一般化の両方の観点から最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-05-28T03:32:56Z) - PatchMVSNet: Patch-wise Unsupervised Multi-View Stereo for
Weakly-Textured Surface Reconstruction [2.9896482273918434]
本稿では,多視点画像の制約を活かしたロバストな損失関数を提案し,あいまいさを緩和する。
我々の戦略は任意の深さ推定フレームワークで実装することができ、任意の大規模MVSデータセットでトレーニングすることができる。
提案手法は,DTU,タンク・アンド・テンプル,ETH3Dなどの一般的なベンチマーク上での最先端手法の性能に達する。
論文 参考訳(メタデータ) (2022-03-04T07:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。