論文の概要: Learning Compositional Shape Priors for Few-Shot 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2106.06440v1
- Date: Fri, 11 Jun 2021 14:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:26:33.486787
- Title: Learning Compositional Shape Priors for Few-Shot 3D Reconstruction
- Title(参考訳): Few-Shot 3D再構成のための合成形状の事前学習
- Authors: Mateusz Michalkiewicz, Stavros Tsogkas, Sarah Parisot, Mahsa
Baktashmotlagh, Anders Eriksson, Eugene Belilovsky
- Abstract要約: 複雑なエンコーダ・デコーダアーキテクチャが,カテゴリごとの大量のデータを利用することを示す。
データから直接クラス固有のグローバルな形状を学習する3つの方法を提案する。
人気のShapeNetデータセットの実験から,本手法はゼロショットベースラインを40%以上上回る性能を示した。
- 参考スコア(独自算出の注目度): 36.40776735291117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The impressive performance of deep convolutional neural networks in
single-view 3D reconstruction suggests that these models perform non-trivial
reasoning about the 3D structure of the output space. Recent work has
challenged this belief, showing that, on standard benchmarks, complex
encoder-decoder architectures perform similarly to nearest-neighbor baselines
or simple linear decoder models that exploit large amounts of per-category
data. However, building large collections of 3D shapes for supervised training
is a laborious process; a more realistic and less constraining task is
inferring 3D shapes for categories with few available training examples,
calling for a model that can successfully generalize to novel object classes.
In this work we experimentally demonstrate that naive baselines fail in this
few-shot learning setting, in which the network must learn informative shape
priors for inference of new categories. We propose three ways to learn a
class-specific global shape prior, directly from data. Using these techniques,
we are able to capture multi-scale information about the 3D shape, and account
for intra-class variability by virtue of an implicit compositional structure.
Experiments on the popular ShapeNet dataset show that our method outperforms a
zero-shot baseline by over 40%, and the current state-of-the-art by over 10%,
in terms of relative performance, in the few-shot setting.12
- Abstract(参考訳): シングルビュー3次元再構成における深部畳み込みニューラルネットワークの性能は、これらのモデルが出力空間の3次元構造に関する非自明な推論を行うことを示している。
近年の研究では、標準ベンチマークにおいて、複雑なエンコーダ-デコーダアーキテクチャは、最も近いベースラインや、カテゴリ単位の大量のデータを利用する単純な線形デコーダモデルと同様に振る舞うことが示されている。
しかし、教師付きトレーニングのための大規模な3次元形状の収集は、面倒なプロセスである。より現実的で制約の少ないタスクは、利用可能なトレーニング例がほとんどないカテゴリの3次元形状を推論し、新しいオブジェクトクラスにうまく一般化できるモデルを要求する。
本研究では,ネットワークが新たなカテゴリの推論に先立って情報型を学習しなければならない,このマイナショット学習環境において,ナイーブなベースラインが失敗することを実験的に実証する。
データから直接クラス固有のグローバルな形状を学習する3つの方法を提案する。
これらの手法を用いることで,3次元形状に関するマルチスケール情報をキャプチャし,暗黙的な構成構造によりクラス内変動を考慮できる。
一般的なShapeNetデータセットの実験では,本手法がゼロショットベースラインを40%以上上回り,現在の最先端を10%以上上回っている。
関連論文リスト
- PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable
Categories [80.30216777363057]
コモンペットを3Dで紹介する(CoP3D)。
テスト時には、目に見えないオブジェクトの少数のビデオフレームが与えられたとき、Tracker-NeRFはその3Dポイントの軌跡を予測し、新しいビューを生成する。
CoP3Dの結果は、既存のベースラインよりも、厳密でない新規ビュー合成性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-07T22:42:42Z) - Semi-Supervised Single-View 3D Reconstruction via Prototype Shape Priors [79.80916315953374]
本研究では,3次元再構成のための半教師付きフレームワークであるSSP3Dを提案する。
本稿では,現実的なオブジェクト再構成を導くために,注意誘導型プロトタイプ形状先行モジュールを提案する。
実世界のPix3Dデータセットに10%のラベリング比で転送する場合も,本手法は良好に機能する。
論文 参考訳(メタデータ) (2022-09-30T11:19:25Z) - Few-shot Single-view 3D Reconstruction with Memory Prior Contrastive
Network [18.000566656946475]
数ショット学習に基づく新しいカテゴリーの3次元再構成が現実の応用にアピールしている。
本稿では,記憶優先コントラストネットワーク (MPCN) を提案する。
論文 参考訳(メタデータ) (2022-07-30T10:49:39Z) - SurFit: Learning to Fit Surfaces Improves Few Shot Learning on Point
Clouds [48.61222927399794]
SurFitは3次元形状分割ネットワークのラベルを効率的に学習するための単純な手法である。
3次元形状の表面を幾何学的プリミティブに分解する自己指導型タスクに基づいている。
論文 参考訳(メタデータ) (2021-12-27T23:55:36Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - LightSAL: Lightweight Sign Agnostic Learning for Implicit Surface
Representation [5.1135133995376085]
本研究では3次元形状を学習するための新しい深層畳み込みアーキテクチャであるLightSALを提案する。
実験は、人間の形状を41kの3DスキャンしたD-Faustデータセットに基づいている。
論文 参考訳(メタデータ) (2021-03-26T05:50:14Z) - Few-Shot Single-View 3-D Object Reconstruction with Compositional Priors [30.262308825799167]
複雑なエンコーダ・デコーダアーキテクチャは、標準ベンチマークにおいて、最寄りのベースラインと同様に動作することを示す。
本稿では,3次元再構成モデルに事前クラスを効率的に統合する3つの手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T04:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。