論文の概要: Rethinking the Multi-view Stereo from the Perspective of Rendering-based
Augmentation
- arxiv url: http://arxiv.org/abs/2303.06418v1
- Date: Sat, 11 Mar 2023 14:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:11:22.735767
- Title: Rethinking the Multi-view Stereo from the Perspective of Rendering-based
Augmentation
- Title(参考訳): レンダリングに基づく拡張の観点からのマルチビューステレオの再考
- Authors: Chenjie Cao, Xinlin Ren, Xiangyang Xue, Yanwei Fu
- Abstract要約: GigaMVSは、既存のMulti-View Stereo (MVS)アルゴリズムにいくつかの課題を提示している。
まず,最先端の学習ベースMVS手法である-MVSFormerを適用し,難解なシナリオを克服する。
ACMMP、OpenMVS、RealCaptureといった従来のPatchMatchアルゴリズムを利用して、大きなシーンの完全性をさらに向上する。
- 参考スコア(独自算出の注目度): 71.2289832226846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GigaMVS presents several challenges to existing Multi-View Stereo (MVS)
algorithms for its large scale, complex occlusions, and gigapixel images. To
address these problems, we first apply one of the state-of-the-art
learning-based MVS methods, --MVSFormer, to overcome intractable scenarios such
as textureless and reflections regions suffered by traditional PatchMatch
methods, but it fails in a few large scenes' reconstructions. Moreover,
traditional PatchMatch algorithms such as ACMMP, OpenMVS, and RealityCapture
are leveraged to further improve the completeness in large scenes. Furthermore,
to unify both advantages of deep learning methods and the traditional
PatchMatch, we propose to render depth and color images to further fine-tune
the MVSFormer model. Notably, we find that the MVS method could produce much
better predictions through rendered images due to the coincident illumination,
which we believe is significant for the MVS community. Thus, MVSFormer is
capable of generalizing to large-scale scenes and complementarily solves the
textureless reconstruction problem. Finally, we have assembled all point clouds
mentioned above \textit{except ones from RealityCapture} and ranked Top-1 on
the competitive GigaReconstruction.
- Abstract(参考訳): GigaMVSは、既存のMulti-View Stereo(MVS)アルゴリズムに対して、その大規模、複雑なオクルージョン、およびギガピクセル画像に対するいくつかの課題を提示している。
これらの問題に対処するために,我々はまず,最先端の学習ベースmvs手法 --mvsformer を適用し,従来のパッチマッチ法で被るテクスチャレス領域やリフレクション領域などの難解なシナリオを克服したが,いくつかの大きなシーンの再構成では失敗する。
さらに、ACMMP、OpenMVS、RealCaptureといった従来のPatchMatchアルゴリズムを利用して、大規模なシーンの完全性をさらに向上する。
さらに、深層学習手法と従来のPatchMatchの両方の利点を統合するために、深度とカラー画像を描画してMVSFormerモデルをさらに微調整することを提案する。
特に、MVS法は、同期照明によるレンダリング画像により、より優れた予測を実現できることが分かり、MVSコミュニティにとって重要であると信じている。
したがって、MVSFormerは大規模シーンに一般化することができ、テクスチャレス再構築問題を補完的に解決することができる。
最後に、上記の \textit{ except one from realitycapture} のすべてのポイントクラウドを組み立て、競合であるgigareconstruction でトップ1にランク付けしました。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - MP-MVS: Multi-Scale Windows PatchMatch and Planar Prior Multi-View
Stereo [7.130834755320434]
レジリエントで効果的なマルチビューステレオアプローチ(MP-MVS)を提案する。
マルチスケールウィンドウPatchMatch (mPM) を設計し, 信頼性の高い非テクスチャ領域の深さを求める。
他のマルチスケールアプローチとは対照的に、より高速で、PatchMatchベースのMVSアプローチに容易に拡張できる。
論文 参考訳(メタデータ) (2023-09-23T07:30:42Z) - Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。
導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-30T01:53:14Z) - Revisiting PatchMatch Multi-View Stereo for Urban 3D Reconstruction [1.1011268090482573]
PatchMatch Multi-View Stereo (MVS) に基づく画像に基づく都市シナリオの3次元再構築のための完全なパイプラインを提案する。
提案手法は、KITTIデータセット上の古典的MVSアルゴリズムと単分子深度ネットワークの両方に対して慎重に評価される。
論文 参考訳(メタデータ) (2022-07-18T08:45:54Z) - RIAV-MVS: Recurrent-Indexing an Asymmetric Volume for Multi-View Stereo [20.470182157606818]
「学習から最適化」パラダイムは、平面スウィーピングコストボリュームを反復的にインデックス化し、畳み込みGated Recurrent Unit(GRU)を介して深度マップを回帰する。
実世界のMVSデータセットについて広範な実験を行い、本手法が内部データセット評価とクロスデータセット一般化の両方の観点から最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-05-28T03:32:56Z) - PatchMVSNet: Patch-wise Unsupervised Multi-View Stereo for
Weakly-Textured Surface Reconstruction [2.9896482273918434]
本稿では,多視点画像の制約を活かしたロバストな損失関数を提案し,あいまいさを緩和する。
我々の戦略は任意の深さ推定フレームワークで実装することができ、任意の大規模MVSデータセットでトレーニングすることができる。
提案手法は,DTU,タンク・アンド・テンプル,ETH3Dなどの一般的なベンチマーク上での最先端手法の性能に達する。
論文 参考訳(メタデータ) (2022-03-04T07:05:23Z) - Outdoor inverse rendering from a single image using multiview
self-supervision [36.065349509851245]
一つの無制御画像から形状,反射率,照明を復元するために,シーンレベルの逆レンダリングを行う方法を示す。
ネットワークは、rgb画像を入力として、アルベド、シャドー、正規マップをレグレッシブし、最小2乗の最適球面調和照明を推定する。
これはmvs監督を逆レンダリングの学習に利用する最初の試みであると考えています。
論文 参考訳(メタデータ) (2021-02-12T16:01:18Z) - Learned Multi-View Texture Super-Resolution [76.82725815863711]
仮想3Dオブジェクトの高解像度テクスチャマップを,そのオブジェクトの低解像度画像の集合から作成できる超高解像度手法を提案する。
本アーキテクチャは, (i) 重なり合うビューの冗長性に基づくマルチビュー超解像の概念と, (ii) 高分解能画像構造の学習先行に基づくシングルビュー超解像の概念を統一する。
論文 参考訳(メタデータ) (2020-01-14T13:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。