Fugu-MT 論文翻訳(概要): Rethinking the Multi-view Stereo from the Perspective of Rendering-based Augmentation

論文の概要: Rethinking the Multi-view Stereo from the Perspective of Rendering-based Augmentation

arxiv url: http://arxiv.org/abs/2303.06418v1
Date: Sat, 11 Mar 2023 14:55:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-14 19:11:22.735767
Title: Rethinking the Multi-view Stereo from the Perspective of Rendering-based Augmentation
Title（参考訳）: レンダリングに基づく拡張の観点からのマルチビューステレオの再考
Authors: Chenjie Cao, Xinlin Ren, Xiangyang Xue, Yanwei Fu
Abstract要約: GigaMVSは、既存のMulti-View Stereo (MVS)アルゴリズムにいくつかの課題を提示している。まず,最先端の学習ベースMVS手法である-MVSFormerを適用し,難解なシナリオを克服する。 ACMMP、OpenMVS、RealCaptureといった従来のPatchMatchアルゴリズムを利用して、大きなシーンの完全性をさらに向上する。
参考スコア（独自算出の注目度）: 71.2289832226846
License: http://creativecommons.org/licenses/by/4.0/
Abstract: GigaMVS presents several challenges to existing Multi-View Stereo (MVS) algorithms for its large scale, complex occlusions, and gigapixel images. To address these problems, we first apply one of the state-of-the-art learning-based MVS methods, --MVSFormer, to overcome intractable scenarios such as textureless and reflections regions suffered by traditional PatchMatch methods, but it fails in a few large scenes' reconstructions. Moreover, traditional PatchMatch algorithms such as ACMMP, OpenMVS, and RealityCapture are leveraged to further improve the completeness in large scenes. Furthermore, to unify both advantages of deep learning methods and the traditional PatchMatch, we propose to render depth and color images to further fine-tune the MVSFormer model. Notably, we find that the MVS method could produce much better predictions through rendered images due to the coincident illumination, which we believe is significant for the MVS community. Thus, MVSFormer is capable of generalizing to large-scale scenes and complementarily solves the textureless reconstruction problem. Finally, we have assembled all point clouds mentioned above \textit{except ones from RealityCapture} and ranked Top-1 on the competitive GigaReconstruction.
Abstract（参考訳）: GigaMVSは、既存のMulti-View Stereo(MVS)アルゴリズムに対して、その大規模、複雑なオクルージョン、およびギガピクセル画像に対するいくつかの課題を提示している。これらの問題に対処するために,我々はまず,最先端の学習ベースmvs手法 --mvsformer を適用し,従来のパッチマッチ法で被るテクスチャレス領域やリフレクション領域などの難解なシナリオを克服したが,いくつかの大きなシーンの再構成では失敗する。さらに、ACMMP、OpenMVS、RealCaptureといった従来のPatchMatchアルゴリズムを利用して、大規模なシーンの完全性をさらに向上する。さらに、深層学習手法と従来のPatchMatchの両方の利点を統合するために、深度とカラー画像を描画してMVSFormerモデルをさらに微調整することを提案する。特に、MVS法は、同期照明によるレンダリング画像により、より優れた予測を実現できることが分かり、MVSコミュニティにとって重要であると信じている。したがって、MVSFormerは大規模シーンに一般化することができ、テクスチャレス再構築問題を補完的に解決することができる。最後に、上記の \textit{ except one from realitycapture} のすべてのポイントクラウドを組み立て、競合であるgigareconstruction でトップ1にランク付けしました。

関連論文リスト

M2SVid: End-to-End Inpainting and Refinement for Monocular-to-Stereo Video Conversion [60.728003408015844]
入力左図の奥行きに基づく再投影により得られた歪んだ右図の描画と洗練のための新しいアーキテクチャを提案する。提案手法は従来の最先端手法よりも優れており,ユーザスタディでは4つの比較手法の中で平均1.43のランクが得られた。
論文参考訳（メタデータ） (2025-05-22T11:58:54Z)
MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds [56.77548728485841]
本稿では,高速な単一ステージフィードフォワードネットワークMV-DUSt3Rを提案する。コアとなるのはマルチビューデコーダブロックで、単一の参照ビューを考慮しながら、任意のビュー間で情報を交換する。さらに,参照ビュー選択に頑健な手法として,参照ビュー選択の異なる情報を融合するために,参照ビューブロックを用いたMV-DUSt3R+を提案する。
論文参考訳（メタデータ） (2024-12-09T20:34:55Z)
VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文参考訳（メタデータ） (2024-11-29T08:10:49Z)
A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文参考訳（メタデータ） (2024-11-04T08:50:16Z)
SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文参考訳（メタデータ） (2024-10-26T00:52:46Z)
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。 ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文参考訳（メタデータ） (2024-05-24T17:34:15Z)
MP-MVS: Multi-Scale Windows PatchMatch and Planar Prior Multi-View Stereo [7.130834755320434]
レジリエントで効果的なマルチビューステレオアプローチ(MP-MVS)を提案する。マルチスケールウィンドウPatchMatch (mPM) を設計し, 信頼性の高い非テクスチャ領域の深さを求める。他のマルチスケールアプローチとは対照的に、より高速で、PatchMatchベースのMVSアプローチに容易に拡張できる。
論文参考訳（メタデータ） (2023-09-23T07:30:42Z)
Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文参考訳（メタデータ） (2023-03-30T01:53:14Z)
FPANet: Frequency-based Video Demoireing using Frame-level Post Alignment [10.556848553421158]
FPANetは、周波数領域と空間領域の両方でフィルタを学習する画像-ビデオ復調ネットワークである。提案手法の有効性を,一般公開された大規模データセットを用いて実証する。
論文参考訳（メタデータ） (2023-01-18T06:37:24Z)
Revisiting PatchMatch Multi-View Stereo for Urban 3D Reconstruction [1.1011268090482573]
PatchMatch Multi-View Stereo (MVS) に基づく画像に基づく都市シナリオの3次元再構築のための完全なパイプラインを提案する。提案手法は、KITTIデータセット上の古典的MVSアルゴリズムと単分子深度ネットワークの両方に対して慎重に評価される。
論文参考訳（メタデータ） (2022-07-18T08:45:54Z)
RIAV-MVS: Recurrent-Indexing an Asymmetric Volume for Multi-View Stereo [20.470182157606818]
「学習から最適化」パラダイムは、平面スウィーピングコストボリュームを反復的にインデックス化し、畳み込みGated Recurrent Unit(GRU)を介して深度マップを回帰する。実世界のMVSデータセットについて広範な実験を行い、本手法が内部データセット評価とクロスデータセット一般化の両方の観点から最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2022-05-28T03:32:56Z)
PatchMVSNet: Patch-wise Unsupervised Multi-View Stereo for Weakly-Textured Surface Reconstruction [2.9896482273918434]
本稿では,多視点画像の制約を活かしたロバストな損失関数を提案し,あいまいさを緩和する。我々の戦略は任意の深さ推定フレームワークで実装することができ、任意の大規模MVSデータセットでトレーニングすることができる。提案手法は,DTU,タンク・アンド・テンプル,ETH3Dなどの一般的なベンチマーク上での最先端手法の性能に達する。
論文参考訳（メタデータ） (2022-03-04T07:05:23Z)
Outdoor inverse rendering from a single image using multiview self-supervision [36.065349509851245]
一つの無制御画像から形状,反射率,照明を復元するために,シーンレベルの逆レンダリングを行う方法を示す。ネットワークは、rgb画像を入力として、アルベド、シャドー、正規マップをレグレッシブし、最小2乗の最適球面調和照明を推定する。これはmvs監督を逆レンダリングの学習に利用する最初の試みであると考えています。
論文参考訳（メタデータ） (2021-02-12T16:01:18Z)
Learned Multi-View Texture Super-Resolution [76.82725815863711]
仮想3Dオブジェクトの高解像度テクスチャマップを,そのオブジェクトの低解像度画像の集合から作成できる超高解像度手法を提案する。本アーキテクチャは, (i) 重なり合うビューの冗長性に基づくマルチビュー超解像の概念と, (ii) 高分解能画像構造の学習先行に基づくシングルビュー超解像の概念を統一する。
論文参考訳（メタデータ） (2020-01-14T13:49:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。