Fugu-MT 論文翻訳(概要): End-to-End Multi-View Structure-from-Motion with Hypercorrelation Volumes

論文の概要: End-to-End Multi-View Structure-from-Motion with Hypercorrelation Volumes

arxiv url: http://arxiv.org/abs/2209.06926v1
Date: Wed, 14 Sep 2022 20:58:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-16 12:53:51.792199
Title: End-to-End Multi-View Structure-from-Motion with Hypercorrelation Volumes
Title（参考訳）: ハイパー相関ボリュームを用いたエンド・ツー・エンドのマルチビュー構造
Authors: Qiao Chen, Charalambos Poullis
Abstract要約: この問題に対処するために深層学習技術が提案されている。我々は現在最先端の2次元構造であるSfM(SfM)のアプローチを改善している。一般的なマルチビューのケースに拡張し、複雑なベンチマークデータセットDTUで評価する。
参考スコア（独自算出の注目度）: 7.99536002595393
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Image-based 3D reconstruction is one of the most important tasks in Computer Vision with many solutions proposed over the last few decades. The objective is to extract metric information i.e. the geometry of scene objects directly from images. These can then be used in a wide range of applications such as film, games, virtual reality, etc. Recently, deep learning techniques have been proposed to tackle this problem. They rely on training on vast amounts of data to learn to associate features between images through deep convolutional neural networks and have been shown to outperform traditional procedural techniques. In this paper, we improve on the state-of-the-art two-view structure-from-motion(SfM) approach of [11] by incorporating 4D correlation volume for more accurate feature matching and reconstruction. Furthermore, we extend it to the general multi-view case and evaluate it on the complex benchmark dataset DTU [4]. Quantitative evaluations and comparisons with state-of-the-art multi-view 3D reconstruction methods demonstrate its superiority in terms of the accuracy of reconstructions.
Abstract（参考訳）: 画像に基づく3D再構成はコンピュータビジョンで最も重要な課題の一つであり、過去数十年にわたって多くの解決策が提案されてきた。目的は、画像から直接シーンオブジェクトの幾何を計測情報として抽出することである。これらは、映画、ゲーム、バーチャルリアリティなど、幅広いアプリケーションで使用することができる。近年,この問題に対処する深層学習技術が提案されている。彼らは、深い畳み込みニューラルネットワークを通じて画像間の特徴を関連付けるために、膨大なデータのトレーニングに依存しており、従来の手続き技術よりも優れていることが示されている。本稿では,より正確な特徴マッチングと再構成のために4次元相関ボリュームを組み込むことにより,[11]の動作からの2次元構造(SfM)アプローチを改善する。さらに、これを一般的なマルチビューケースに拡張し、複雑なベンチマークデータセットDTU[4]で評価する。現状のマルチビュー3次元再構成手法との比較により, 再現精度の点でその優位性を示す。

関連論文リスト

A Generative Approach to High Fidelity 3D Reconstruction from Text Data [0.0]
本研究では,テキスト・画像生成をシームレスに統合する完全自動パイプライン,様々な画像処理技術,反射除去と3次元再構成のためのディープラーニング手法を提案する。安定拡散のような最先端の生成モデルを活用することで、この手法は自然言語の入力を多段階のワークフローを通じて詳細な3Dモデルに変換する。このアプローチは、意味的コヒーレンスを維持すること、幾何学的複雑さを管理すること、詳細な視覚情報を保存することなど、生成的再構築における重要な課題に対処する。
論文参考訳（メタデータ） (2025-03-05T16:54:15Z)
FOCUS - Multi-View Foot Reconstruction From Synthetically Trained Dense Correspondences [23.644116579294547]
人足再建の具体的な症例について検討する。マルチビューRGB画像からリッチなピクセル単位の幾何学的手がかりを抽出する。本研究は, 現状の再建の質を, 数点の視点で達成できることを実証する。
論文参考訳（メタデータ） (2025-02-10T11:36:45Z)
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion [27.836518920611557]
本稿では,新しい視点から画像や深度マップを直接生成できる拡散型アーキテクチャMVGDを紹介する。このモデルは、公開データセットから6000万以上のマルチビューサンプルを収集した上でトレーニングします。複数の新しいビュー合成ベンチマーク、マルチビューステレオおよびビデオ深度推定における最先端結果について報告する。
論文参考訳（メタデータ） (2025-01-30T23:43:06Z)
Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。 LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文参考訳（メタデータ） (2024-10-24T17:54:42Z)
Learning-based Multi-View Stereo: A Survey [55.3096230732874]
MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-08-27T17:53:18Z)
MaRINeR: Enhancing Novel Views by Matching Rendered Images with Nearby References [49.71130133080821]
MaRINeRは、近くのマッピング画像の情報を活用して、ターゲット視点のレンダリングを改善する方法である。暗黙のシーン表現と暗黙のシーン表現の両方から、定量的な指標と定性的な例のレンダリングの改善を示す。
論文参考訳（メタデータ） (2024-07-18T17:50:03Z)
MVSBoost: An Efficient Point Cloud-based 3D Reconstruction [4.282795945742752]
拡張現実や仮想現実、医用画像、映画特殊効果など、様々な応用において、効率的で正確な3D再構成が不可欠である。従来のMulti-View Stereo (MVS) システムはこれらのアプリケーションには基本的だが、暗黙の3次元シーンモデリングは複雑なトポロジや連続面を扱う新しい可能性をもたらした。
論文参考訳（メタデータ） (2024-06-19T13:02:17Z)
Implicit Shape and Appearance Priors for Few-Shot Full Head Reconstruction [17.254539604491303]
本稿では,数発のフル3次元頭部再構成の問題点に対処する。我々は、座標に基づく表現に先立って確率的形状と外観を組み込むことにより、これを達成した。我々はH3DSデータセットを拡張し、60個の高解像度3Dフルヘッドスキャンと対応する画像とマスクを含む。
論文参考訳（メタデータ） (2023-10-12T07:35:30Z)
VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文参考訳（メタデータ） (2021-08-19T11:33:58Z)
Multi-view 3D Reconstruction with Transformer [34.756336770583154]
シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
論文参考訳（メタデータ） (2021-03-24T03:14:49Z)
Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文参考訳（メタデータ） (2020-11-26T04:04:21Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。