論文の概要: Predicting 3D shapes, masks, and properties of materials, liquids, and
objects inside transparent containers, using the TransProteus CGI dataset
- arxiv url: http://arxiv.org/abs/2109.07577v1
- Date: Wed, 15 Sep 2021 21:16:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-18 06:10:40.961588
- Title: Predicting 3D shapes, masks, and properties of materials, liquids, and
objects inside transparent containers, using the TransProteus CGI dataset
- Title(参考訳): TransProteus CGIデータセットを用いた透明容器内の材料・液体・物体の3次元形状・マスク・特性の予測
- Authors: Sagi Eppel, Haoping Xu, Yi Ru Wang, Alan Aspuru-Guzik
- Abstract要約: この研究は、透明な容器内の液体と固体の50kの画像からなる、手続き的に生成された新しいデータセットを提供する。
本稿では,XYZマップとして画像から3Dモデルを予測するカメラ手法を提案する。これにより,トレーニングされたネットは,画像ソースを事前に知ることなく,XYZ座標を1ピクセルあたりの地図として3Dモデルを予測できる。
- 参考スコア(独自算出の注目度): 4.532726243347831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present TransProteus, a dataset, and methods for predicting the 3D
structure, masks, and properties of materials, liquids, and objects inside
transparent vessels from a single image without prior knowledge of the image
source and camera parameters. Manipulating materials in transparent containers
is essential in many fields and depends heavily on vision. This work supplies a
new procedurally generated dataset consisting of 50k images of liquids and
solid objects inside transparent containers. The image annotations include 3D
models, material properties (color/transparency/roughness...), and segmentation
masks for the vessel and its content. The synthetic (CGI) part of the dataset
was procedurally generated using 13k different objects, 500 different
environments (HDRI), and 1450 material textures (PBR) combined with simulated
liquids and procedurally generated vessels. In addition, we supply 104
real-world images of objects inside transparent vessels with depth maps of both
the vessel and its content. We propose a camera agnostic method that predicts
3D models from an image as an XYZ map. This allows the trained net to predict
the 3D model as a map with XYZ coordinates per pixel without prior knowledge of
the image source. To calculate the training loss, we use the distance between
pairs of points inside the 3D model instead of the absolute XYZ coordinates.
This makes the loss function translation invariant. We use this to predict 3D
models of vessels and their content from a single image. Finally, we
demonstrate a net that uses a single image to predict the material properties
of the vessel content and surface.
- Abstract(参考訳): 画像のソースやカメラパラメータを事前に知ることなく, 透明容器内の物質, 液体, 物体の3次元構造, マスク, 特性を予測するためのデータセットであるTransProteusを提案する。
透明容器における材料操作は多くの分野において不可欠であり、視覚に大きく依存する。
この作業は、透明なコンテナ内の液体と固体の50万の画像からなる、新しい手続き的に生成されたデータセットを提供する。
画像アノテーションには、3Dモデル、材料特性(色/透明/粗さ...)、容器とその内容のセグメンテーションマスクが含まれている。
データセットの合成 (CGI) 部分は, 13kの異なる物体, 500の異なる環境 (HDRI) と1450の材料テクスチャ (PBR) をシミュレートした液体と手続き的に生成された容器を用いて手続き的に生成した。
さらに,透明容器内の物体を104枚の実世界画像として,容器とその内容の深さマップを提供する。
XYZマップとして画像から3次元モデルを予測するカメラ非依存の手法を提案する。
これにより、トレーニングされたネットは、画像ソースを事前に知ることなく、XYZ座標を1ピクセルあたりの地図として3Dモデルを予測できる。
トレーニング損失を計算するために,絶対XYZ座標の代わりに3次元モデル内の点の対間距離を用いる。
これにより損失関数変換は不変となる。
これを使って、1つの画像から血管とその内容の3dモデルを予測する。
最後に, 1枚の画像を用いて, 容器内容物と表面の材料特性を推定するネットを実演する。
関連論文リスト
- MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets [63.284244910964475]
本稿では,2次元のセマンティクスから基礎となる物質を推定する3次元アセット素材生成フレームワークを提案する。
このような先行モデルに基づいて,材料を三次元空間で解析する機構を考案する。
論文 参考訳(メタデータ) (2024-04-22T07:00:17Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Visual Tomography: Physically Faithful Volumetric Models of Partially
Translucent Objects [0.0]
オブジェクトのデジタル3D表現は、人間やコンピュータによる解析に有用である。
半半透明物体の内部を含む物理モデルを得るためのボリューム再構成手法を提案する。
我々の技術は、明るい白色光源の前で異なるポーズの下で物体を撮影し、ボクセル当たりの吸収と散乱を計算する。
論文 参考訳(メタデータ) (2023-12-21T00:14:46Z) - Generating Images with 3D Annotations Using Diffusion Models [32.77912877963642]
拡散モデルに3次元幾何制御を組み込んだ3次元拡散スタイル転送(3D-DST)を提案する。
提案手法は,テキストプロンプトに加えて視覚的プロンプトを用いて拡散モデルを拡張する制御ネットを利用する。
明示的な3次元幾何制御により、生成画像中のオブジェクトの3次元構造を容易に変更し、グラウンドトルース3Dを自動的に得ることができる。
論文 参考訳(メタデータ) (2023-06-13T19:48:56Z) - GAN2X: Non-Lambertian Inverse Rendering of Image GANs [85.76426471872855]
GAN2Xは、教師なし画像のみをトレーニングに使用する、教師なし逆レンダリングの新しい手法である。
3次元形状を主眼とする従来のShape-from-GANアプローチとは異なり、GANが生成した擬似ペアデータを利用して、非ランベルト材料特性を復元する試みは初めてである。
実験により, GAN2Xは2次元画像を3次元形状, アルベド, 特異な特性に正確に分解し, 教師なしの単視3次元顔再構成の最先端性能を実現することができた。
論文 参考訳(メタデータ) (2022-06-18T16:58:49Z) - GaussiGAN: Controllable Image Synthesis with 3D Gaussians from Unposed
Silhouettes [48.642181362172906]
対象物の粗い3次元表現を多視点2次元マスク監視から学習するアルゴリズムを提案する。
既存のボクセルを用いた物体再構成法とは対照的に,提案手法は生成した形状やポーズを表現することを学ぶ。
リアル照明を用いた合成データセットの結果を示し、対話的なポーズによるオブジェクト挿入を実証する。
論文 参考訳(メタデータ) (2021-06-24T17:47:58Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。