Fugu-MT 論文翻訳(概要): DiffuStereo: High Quality Human Reconstruction via Diffusion-based Stereo Using Sparse Cameras

論文の概要: DiffuStereo: High Quality Human Reconstruction via Diffusion-based Stereo Using Sparse Cameras

arxiv url: http://arxiv.org/abs/2207.08000v2
Date: Wed, 20 Jul 2022 08:12:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-21 10:48:07.019316
Title: DiffuStereo: High Quality Human Reconstruction via Diffusion-based Stereo Using Sparse Cameras
Title（参考訳）: diffustereo:スパースカメラを用いた拡散型ステレオによる高品質ヒト再建
Authors: Ruizhi Shao, Zerong Zheng, Hongwen Zhang, Jingxiang Sun, Yebin Liu
Abstract要約: 高品質な3次元再構成のためのスパースカメラのみを用いた新しいシステムであるDiffuStereoを提案する。中心となるのは、反復的なステレオマッチングネットワークに拡散モデルを導入する、新しい拡散ベースのステレオモジュールである。メモリフットプリントを必要とせずに高解像度(最大4k)入力を処理できるマルチレベルステレオネットワークアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 33.6247548142638
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose DiffuStereo, a novel system using only sparse cameras (8 in this work) for high-quality 3D human reconstruction. At its core is a novel diffusion-based stereo module, which introduces diffusion models, a type of powerful generative models, into the iterative stereo matching network. To this end, we design a new diffusion kernel and additional stereo constraints to facilitate stereo matching and depth estimation in the network. We further present a multi-level stereo network architecture to handle high-resolution (up to 4k) inputs without requiring unaffordable memory footprint. Given a set of sparse-view color images of a human, the proposed multi-level diffusion-based stereo network can produce highly accurate depth maps, which are then converted into a high-quality 3D human model through an efficient multi-view fusion strategy. Overall, our method enables automatic reconstruction of human models with quality on par to high-end dense-view camera rigs, and this is achieved using a much more light-weight hardware setup. Experiments show that our method outperforms state-of-the-art methods by a large margin both qualitatively and quantitatively.
Abstract（参考訳）: 高品質な3次元再構成のためのスパースカメラ(本研究では8台)のみを用いた新しいシステムであるDiffuStereoを提案する。中心となるのは拡散に基づく新しいステレオモジュールであり、これは拡散モデル(強力な生成モデルの一種)を反復ステレオマッチングネットワークに導入する。この目的のために,ネットワーク内でのステレオマッチングと深度推定を容易にするために,新しい拡散カーネルと追加のステレオ制約を設計する。さらに,メモリフットプリントを必要とせず,高解像度(最大4k)入力を処理するマルチレベルステレオネットワークアーキテクチャを提案する。提案する多層拡散型ステレオネットワークは,人間のスパースカラー画像の集合を考慮し,高精度な深度マップを作成可能とし,効率的なマルチビュー融合戦略により高品質な3次元人体モデルに変換する。本手法は,高精細度カメラリグに匹敵する品質の人体モデルの自動再構成を可能にし,より軽量なハードウェア構成で実現している。実験により,本手法は定性的にも定量的にも,最先端の手法よりも高い性能を示した。

関連論文リスト

Lightweight and Accurate Multi-View Stereo with Confidence-Aware Diffusion Model [81.01939699480094]
本稿では,MVSに拡散モデルを導入する新しいMVSフレームワークを提案する。深度推定の識別特性を考慮し,拡散過程を導出する条件エンコーダを設計する。本稿では,新しいMVSフレームワークであるDiffMVSとCasMVSの2つの新しいMVS手法を提案する。
論文参考訳（メタデータ） (2025-09-18T17:59:19Z)
Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [62.37493746544967]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。 DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文参考訳（メタデータ） (2025-03-30T16:24:22Z)
MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention [83.56588173102594]
1024x1024解像度でのトレーニングを可能にするメッシュアテンションというソリューションを導入しました。このアプローチは、クロスビュー一貫性を維持しながら、マルチビューアテンションの複雑さを著しく低減します。この基盤の上にメッシュアテンションブロックを設計し、キーポイント条件付けと組み合わせて、人間固有のマルチビュー拡散モデルMEATを作成します。
論文参考訳（メタデータ） (2025-03-11T17:50:59Z)
Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文参考訳（メタデータ） (2024-08-26T04:56:41Z)
Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention [87.02613021058484]
単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。 Era3Dは、最大512*512の解像度で高品質なマルチビュー画像を生成し、複雑さを12倍に削減する。
論文参考訳（メタデータ） (2024-05-19T17:13:16Z)
MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:57Z)
MEStereo-Du2CNN: A Novel Dual Channel CNN for Learning Robust Depth Estimates from Multi-exposure Stereo Images for HDR 3D Applications [0.22940141855172028]
マルチ露光ステレオ深度推定のための新しいディープアーキテクチャを開発した。アーキテクチャの立体深度推定コンポーネントとして,モノ・ステレオ・トランスファー学習アプローチをデプロイする。性能の面では、提案モデルは最先端のモノクラーおよびステレオ深度推定法を超越している。
論文参考訳（メタデータ） (2022-06-21T13:23:22Z)
Neural 3D Reconstruction in the Wild [86.6264706256377]
そこで我々は,インターネット写真コレクションから効率よく高精度な表面再構成を実現する新しい手法を提案する。そこで本研究では,これらのシーンにおける再構成性能を評価するための新しいベンチマークとプロトコルを提案する。
論文参考訳（メタデータ） (2022-05-25T17:59:53Z)
Neural Disparity Refinement for Arbitrary Resolution Stereo [67.55946402652778]
本稿では,安価で広範なコンシューマデバイスへの3Dコンピュータビジョンの展開を容易にすることを目的とした,ニューラルディファリティ改善のための新しいアーキテクチャを提案する。我々のアプローチは任意の出力解像度で洗練された不均一写像を推定できる連続的な定式化に依存している。
論文参考訳（メタデータ） (2021-10-28T18:00:00Z)
CodedStereo: Learned Phase Masks for Large Depth-of-field Stereo [24.193656749401075]
従来のステレオは、画像量と信号対雑音比の基本的なトレードオフに悩まされている。本稿では,この制限を克服する新たなエンドツーエンド学習手法を提案する。シミュレーションで画像化できる体積の6倍の増加を示します。
論文参考訳（メタデータ） (2021-04-09T23:44:52Z)
Polka Lines: Learning Structured Illumination and Reconstruction for Active Stereo [52.68109922159688]
本稿では,波動光学と幾何光学の両方に依存した,アクティブステレオのための新しい微分可能な画像形成モデルと,新しい三眼再構成ネットワークを提案する。 Polka Lines" を再現ネットワークと組み合わせた共同最適化パターンは, 撮像条件全体にわたって, 最先端のアクティブステレオ深度推定を達成している。
論文参考訳（メタデータ） (2020-11-26T04:02:43Z)
Du$^2$Net: Learning Depth Estimation from Dual-Cameras and Dual-Pixels [16.797169907541164]
本稿では,デュアルカメラのステレオとデュアルピクセルセンサのステレオを組み合わせた深度推定のためのニューラルネットワークに基づく新しいアプローチを提案する。我々のネットワークは、2つの情報ソースを融合するために新しいアーキテクチャを使用し、純粋な双眼鏡ステレオマッチングの限界を克服することができる。
論文参考訳（メタデータ） (2020-03-31T15:39:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。