論文の概要: RoSI: Recovering 3D Shape Interiors from Few Articulation Images
- arxiv url: http://arxiv.org/abs/2304.06342v1
- Date: Thu, 13 Apr 2023 08:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 15:11:36.324787
- Title: RoSI: Recovering 3D Shape Interiors from Few Articulation Images
- Title(参考訳): RoSI:画像から3D形状の内装を復元
- Authors: Akshay Gadi Patil, Yiming Qian, Shan Yang, Brian Jackson, Eric
Bennett, Hao Zhang
- Abstract要約: 既存の3次元モデルの内部形状を,マルチビューおよびマルチアレイ画像からのみ外形に復元する学習フレームワークを提案する。
我々のニューラルアーキテクチャはカテゴリーに依存しない方法で訓練されており、モーションアウェアなマルチビュー分析フェーズで構成されています。
さらに,本手法では, 対象の3次元物体に対して, 被写体の動きを予測し, 外挿することも可能である。
- 参考スコア(独自算出の注目度): 20.430308190444737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant majority of 3D models that appear in gaming, VR/AR, and those we
use to train geometric deep learning algorithms are incomplete, since they are
modeled as surface meshes and missing their interior structures. We present a
learning framework to recover the shape interiors (RoSI) of existing 3D models
with only their exteriors from multi-view and multi-articulation images. Given
a set of RGB images that capture a target 3D object in different articulated
poses, possibly from only few views, our method infers the interior planes that
are observable in the input images. Our neural architecture is trained in a
category-agnostic manner and it consists of a motion-aware multi-view analysis
phase including pose, depth, and motion estimations, followed by interior plane
detection in images and 3D space, and finally multi-view plane fusion. In
addition, our method also predicts part articulations and is able to realize
and even extrapolate the captured motions on the target 3D object. We evaluate
our method by quantitative and qualitative comparisons to baselines and
alternative solutions, as well as testing on untrained object categories and
real image inputs to assess its generalization capabilities.
- Abstract(参考訳): ゲームやVR/AR、幾何学的なディープラーニングアルゴリズムのトレーニングに使われている3Dモデルの大多数は、表面メッシュとしてモデル化され、内部構造が欠落しているため、不完全です。
既存の3次元モデルの形状インテリア(RoSI)を,マルチビュー画像とマルチアレイ画像からのみ外形に復元する学習フレームワークを提案する。
対象の3Dオブジェクトを異なる調音ポーズでキャプチャするRGB画像のセットを考慮し, 入力画像で観測可能な内部面を推測する。
私たちのニューラルアーキテクチャはカテゴリに依存しない方法で訓練され、ポーズ、深さ、動き推定を含むモーションアウェアなマルチビュー分析フェーズと、画像と3d空間における内面検出と、最終的にマルチビュー平面融合からなる。
さらに,本手法では, 対象の3次元物体に対して, 被写体の動きを予測し, 外挿することも可能である。
提案手法を,ベースラインと代替ソリューションの定量的および定性的な比較により評価し,未学習対象カテゴリと実画像入力の検証を行い,その一般化能力を評価する。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Structured 3D Features for Reconstructing Controllable Avatars [43.36074729431982]
パラメトリックな統計的メッシュ表面からサンプリングされた高密度な3次元点に画素整列画像特徴をプールする,新しい暗黙の3次元表現に基づくモデルであるStructured 3D Featuresを紹介する。
本研究では,S3Fモデルがモノクロ3D再構成やアルベド,シェーディング推定など,これまでの課題を超越していることを示す。
論文 参考訳(メタデータ) (2022-12-13T18:57:33Z) - Towards High-Fidelity Single-view Holistic Reconstruction of Indoor
Scenes [50.317223783035075]
単視点画像から総合的な3次元屋内シーンを再構築するための新しい枠組みを提案する。
詳細なオブジェクト再構成のためのインスタンス整列型暗黙関数(InstPIFu)を提案する。
私たちのコードとモデルは公開されます。
論文 参考訳(メタデータ) (2022-07-18T14:54:57Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。