論文の概要: Learning Implicit 3D Representations of Dressed Humans from Sparse Views
- arxiv url: http://arxiv.org/abs/2104.08013v1
- Date: Fri, 16 Apr 2021 10:20:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 22:05:40.028304
- Title: Learning Implicit 3D Representations of Dressed Humans from Sparse Views
- Title(参考訳): まばらな視点からみるドレストヒトの3次元表現の学習
- Authors: Pierre Zins, Yuanlu Xu, Edmond Boyer, Stefanie Wuhrer, Tony Tung
- Abstract要約: 本論文では,スパースなカメラビューから服姿の人間の暗黙的な3D表現を学習するエンドツーエンドのアプローチを提案する。
実験では, 提案手法が, 定量的・定性的に標準データに対する技術水準を上回っていることを示した。
- 参考スコア(独自算出の注目度): 31.584157304372425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, data-driven single-view reconstruction methods have shown great
progress in modeling 3D dressed humans. However, such methods suffer heavily
from depth ambiguities and occlusions inherent to single view inputs. In this
paper, we address such issues by lifting the single-view input with additional
views and investigate the best strategy to suitably exploit information from
multiple views. We propose an end-to-end approach that learns an implicit 3D
representation of dressed humans from sparse camera views. Specifically, we
introduce two key components: first an attention-based fusion layer that learns
to aggregate visual information from several viewpoints; second a mechanism
that encodes local 3D patterns under the multi-view context. In the
experiments, we show the proposed approach outperforms the state of the art on
standard data both quantitatively and qualitatively. Additionally, we apply our
method on real data acquired with a multi-camera platform and demonstrate our
approach can obtain results comparable to multi-view stereo with dramatically
less views.
- Abstract(参考訳): 近年,データ駆動型単眼再構成法が3次元服装のモデル化において大きな進歩を遂げている。
しかし、このような手法は、単一のビューインプットに固有の深さの曖昧さやオクルージョンに悩まされている。
本稿では,複数視点からの情報を適切に活用するための最善の戦略を検討するとともに,一視点入力を付加的な視点で引き上げることにより,そのような問題に対処する。
本研究では、スパークカメラビューから着飾った人間の3D表現を暗黙的に学習するエンドツーエンドアプローチを提案する。
具体的には,複数の視点から視覚情報を集約する注意ベースの融合層,マルチビューコンテキスト下で局所的な3dパターンをエンコードするメカニズムの2つを紹介する。
実験では,提案手法が定量的および定性的に標準データ技術に匹敵することを示した。
さらに,本手法をマルチカメラプラットフォームで取得した実データに適用し,ビューが劇的に少ないマルチビューステレオに匹敵する結果が得られることを示す。
関連論文リスト
- MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z) - Enhancing Egocentric 3D Pose Estimation with Third Person Views [37.9683439632693]
本研究では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。
First2Third-Poseは、最初の視点と第三視点の両方から捉えた人間の活動を描いた2000近いビデオからなる、ペア化された新しい同期データセットである。
実験により,データセットを用いて学習した多視点埋め込み空間は,任意の単視点自我中心ビデオから識別的特徴を抽出するのに有用であることが示された。
論文 参考訳(メタデータ) (2022-01-06T11:42:01Z) - Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文 参考訳(メタデータ) (2021-11-13T13:54:28Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Generalized Multi-view Shared Subspace Learning using View Bootstrapping [43.027427742165095]
マルチビュー学習の主な目的は、下流学習タスクを改善するために、オブジェクト/イベントのクラスの複数の並列ビューに共通する情報をモデル化することである。
本稿では,多視点相関に基づくニューラルな手法を提案する。
音声認識、3次元オブジェクト分類、ポーズ不変顔認識の実験は、多数のビューをモデル化するためのビューブートストラップの堅牢性を示している。
論文 参考訳(メタデータ) (2020-05-12T20:35:14Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。