論文の概要: Unsupervised Learning of 3D Object Categories from Videos in the Wild
- arxiv url: http://arxiv.org/abs/2103.16552v1
- Date: Tue, 30 Mar 2021 17:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:09:53.502179
- Title: Unsupervised Learning of 3D Object Categories from Videos in the Wild
- Title(参考訳): 野生の動画からの3dオブジェクトカテゴリの教師なし学習
- Authors: Philipp Henzler, Jeremy Reizenstein, Patrick Labatut, Roman
Shapovalov, Tobias Ritschel, Andrea Vedaldi, David Novotny
- Abstract要約: オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
- 参考スコア(独自算出の注目度): 75.09720013151247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our goal is to learn a deep network that, given a small number of images of
an object of a given category, reconstructs it in 3D. While several recent
works have obtained analogous results using synthetic data or assuming the
availability of 2D primitives such as keypoints, we are interested in working
with challenging real data and with no manual annotations. We thus focus on
learning a model from multiple views of a large collection of object instances.
We contribute with a new large dataset of object centric videos suitable for
training and benchmarking this class of models. We show that existing
techniques leveraging meshes, voxels, or implicit surfaces, which work well for
reconstructing isolated objects, fail on this challenging data. Finally, we
propose a new neural network design, called warp-conditioned ray embedding
(WCR), which significantly improves reconstruction while obtaining a detailed
implicit representation of the object surface and texture, also compensating
for the noise in the initial SfM reconstruction that bootstrapped the learning
process. Our evaluation demonstrates performance improvements over several deep
monocular reconstruction baselines on existing benchmarks and on our novel
dataset.
- Abstract(参考訳): 我々のゴールは、与えられたカテゴリのオブジェクトの少数の画像から、それを3Dで再構成するディープネットワークを学習することである。
いくつかの最近の研究は、合成データやキーポイントのような2次元プリミティブの可用性を仮定して、類似した結果を得たが、我々は、実際のデータに挑戦し、手動のアノテーションなしで作業することに興味を持っている。
したがって、多数のオブジェクトインスタンスの複数のビューからモデルを学ぶことに集中する。
私たちは、このクラスのモデルのトレーニングとベンチマークに適した、オブジェクト中心のビデオの大規模なデータセットにコントリビュートします。
メッシュやボクセル,あるいは暗黙のサーフェスを活用する既存のテクニックは,分離されたオブジェクトの再構築に適しており,この困難なデータに失敗することを示す。
最後に,WCR(ワープコンディショニング・レイ・埋め込み)と呼ばれるニューラルニューラルネットワークの設計を提案する。この設計では,物体表面とテクスチャの詳細な暗黙的な表現を得るとともに,学習過程をブートストラップした初期SfM再構成のノイズを補償する。
本評価では,既存のベンチマークと新しいデータセットに基づいて,複数の深い単分子再構成ベースラインの性能向上を示す。
関連論文リスト
- MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Learning Compositional Shape Priors for Few-Shot 3D Reconstruction [36.40776735291117]
複雑なエンコーダ・デコーダアーキテクチャが,カテゴリごとの大量のデータを利用することを示す。
データから直接クラス固有のグローバルな形状を学習する3つの方法を提案する。
人気のShapeNetデータセットの実験から,本手法はゼロショットベースラインを40%以上上回る性能を示した。
論文 参考訳(メタデータ) (2021-06-11T14:55:49Z) - SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and
3D Mesh Reconstruction from Video Data [124.2624568006391]
sail-vos 3d: フレーム毎のメッシュアノテーションを備えた合成ビデオデータセット。
また,時間モデルによる映像データから3次元メッシュを再構成するための最初のベースラインを開発した。
論文 参考訳(メタデータ) (2021-05-18T15:42:37Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Few-Shot Single-View 3-D Object Reconstruction with Compositional Priors [30.262308825799167]
複雑なエンコーダ・デコーダアーキテクチャは、標準ベンチマークにおいて、最寄りのベースラインと同様に動作することを示す。
本稿では,3次元再構成モデルに事前クラスを効率的に統合する3つの手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T04:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。