論文の概要: Graphics Capsule: Learning Hierarchical 3D Face Representations from 2D
Images
- arxiv url: http://arxiv.org/abs/2303.10896v1
- Date: Mon, 20 Mar 2023 06:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:31:31.989863
- Title: Graphics Capsule: Learning Hierarchical 3D Face Representations from 2D
Images
- Title(参考訳): graphics capsule: 2d画像からの階層的3d顔表現の学習
- Authors: Chang Yu, Xiangyu Zhu, Xiaomei Zhang, Zhaoxiang Zhang, Zhen Lei
- Abstract要約: Inverse Graphics Capsule Network (IGC-Net) を提案する。
IGC-Netはまずオブジェクトをセマンティック一貫性のある部分レベルの記述の集合に分解し、それらをオブジェクトレベルの記述に組み立てて階層を構築する。
- 参考スコア(独自算出の注目度): 82.5266467869448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The function of constructing the hierarchy of objects is important to the
visual process of the human brain. Previous studies have successfully adopted
capsule networks to decompose the digits and faces into parts in an
unsupervised manner to investigate the similar perception mechanism of neural
networks. However, their descriptions are restricted to the 2D space, limiting
their capacities to imitate the intrinsic 3D perception ability of humans. In
this paper, we propose an Inverse Graphics Capsule Network (IGC-Net) to learn
the hierarchical 3D face representations from large-scale unlabeled images. The
core of IGC-Net is a new type of capsule, named graphics capsule, which
represents 3D primitives with interpretable parameters in computer graphics
(CG), including depth, albedo, and 3D pose. Specifically, IGC-Net first
decomposes the objects into a set of semantic-consistent part-level
descriptions and then assembles them into object-level descriptions to build
the hierarchy. The learned graphics capsules reveal how the neural networks,
oriented at visual perception, understand faces as a hierarchy of 3D models.
Besides, the discovered parts can be deployed to the unsupervised face
segmentation task to evaluate the semantic consistency of our method. Moreover,
the part-level descriptions with explicit physical meanings provide insight
into the face analysis that originally runs in a black box, such as the
importance of shape and texture for face recognition. Experiments on CelebA,
BP4D, and Multi-PIE demonstrate the characteristics of our IGC-Net.
- Abstract(参考訳): 物体の階層構造を構築する機能は、人間の脳の視覚過程において重要である。
従来の研究では、ニューラルネットワークの同様の知覚機構を研究するために、桁と面を教師なしの方法で分解するためにカプセルネットワークを採用した。
しかし、それらの記述は2D空間に限定されており、人間の本質的な3D知覚能力を模倣する能力を制限する。
本稿では,大規模未ラベル画像から階層型3次元顔表現を学習するための逆グラフカプセルネットワーク(IGC-Net)を提案する。
igc-netのコアは、深度、アルベド、および3dポーズを含むコンピュータグラフィックス(cg)で解釈可能なパラメータを持つ3dプリミティブを表す、graphics capsuleと呼ばれる新しいタイプのカプセルである。
具体的には、IGC-Netはまずオブジェクトをセマンティック一貫性のある部分レベルの記述の集合に分解し、それらをオブジェクトレベルの記述に組み立てて階層を構築する。
学習されたグラフィックカプセルは、ニューラルネットワークが3Dモデルの階層として顔を理解する方法を明らかにする。
さらに,検出した部品を教師なしの顔分割タスクに配置して,提案手法のセマンティック一貫性を評価する。
さらに、明示的な物理的意味を持つ部分レベルの記述は、顔認識における形状やテクスチャの重要性など、もともとブラックボックス内で実行される顔分析の洞察を与える。
CelebA,BP4D,Multi-PIEの実験は,我々のIGC-Netの特性を実証している。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Learning 3D object-centric representation through prediction [12.008668555280668]
本研究では,1)離散画像からオブジェクトを抽出し,2)3次元位置を推定し,3)深度を知覚する新しいネットワークアーキテクチャを開発する。
中心となる考え方は、物体を脳が将来のシーンを効率的に予測するために使用する視覚入力の潜在原因として扱うことである。
論文 参考訳(メタデータ) (2024-03-06T14:19:11Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - 3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
人間は、画像の3D表現の基盤となる概念を基盤にすることができる。
我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文 参考訳(メタデータ) (2022-07-13T17:59:33Z) - Disentangling 3D Prototypical Networks For Few-Shot Concept Learning [29.02523358573336]
本稿では,RGB-D画像をオブジェクトの形状やスタイルや背景シーンの地図に分解するニューラルネットワークアーキテクチャを提案する。
我々のネットワークには、画像形成過程、世界シーンの3次元幾何学、形状スタイルの相互作用を反映したアーキテクチャバイアスが組み込まれています。
論文 参考訳(メタデータ) (2020-11-06T14:08:27Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z) - GRF: Learning a General Radiance Field for 3D Representation and
Rendering [4.709764624933227]
我々は、暗黙的に3Dオブジェクトとシーンを2D観察からのみ表現しレンダリングする、シンプルだが強力なニューラルネットワークを提案する。
ネットワークは、一般的な放射場として3Dジオメトリをモデル化し、カメラのポーズと固有の2D画像のセットを入力として取り込む。
提案手法は, 斬新なオブジェクト, 見えないカテゴリ, 現実のシーンに対して, 高品質で現実的な新しいビューを生成できる。
論文 参考訳(メタデータ) (2020-10-09T14:21:43Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。