論文の概要: Learning to Reconstruct and Segment 3D Objects
- arxiv url: http://arxiv.org/abs/2010.09582v1
- Date: Mon, 19 Oct 2020 15:09:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 21:31:12.354720
- Title: Learning to Reconstruct and Segment 3D Objects
- Title(参考訳): 3Dオブジェクトの再構成とセグメンテーションの学習
- Authors: Bo Yang
- Abstract要約: 我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
- 参考スコア(独自算出の注目度): 4.709764624933227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To endow machines with the ability to perceive the real-world in a three
dimensional representation as we do as humans is a fundamental and
long-standing topic in Artificial Intelligence. Given different types of visual
inputs such as images or point clouds acquired by 2D/3D sensors, one important
goal is to understand the geometric structure and semantics of the 3D
environment. Traditional approaches usually leverage hand-crafted features to
estimate the shape and semantics of objects or scenes. However, they are
difficult to generalize to novel objects and scenarios, and struggle to
overcome critical issues caused by visual occlusions. By contrast, we aim to
understand scenes and the objects within them by learning general and robust
representations using deep neural networks, trained on large-scale real-world
3D data. To achieve these aims, this thesis makes three core contributions from
object-level 3D shape estimation from single or multiple views to scene-level
semantic understanding.
- Abstract(参考訳): 人間のように3次元の表現で現実世界を知覚する能力を持つ機械を育むことは、人工知能の基本的な、長年の話題である。
2d/3dセンサーによって取得された画像や点雲のような異なる種類の視覚入力を考えると、重要な目標は3d環境の幾何学的構造と意味を理解することである。
伝統的なアプローチは、通常手作りの特徴を利用して、オブジェクトやシーンの形状や意味を推定する。
しかし、新しい物体やシナリオに一般化することは困難であり、視覚的閉塞による致命的な問題を克服するのは難しい。
それとは対照的に,大規模実世界の3dデータに基づいてトレーニングされた深層ニューラルネットワークを用いて,汎用的かつ堅牢な表現を学習することで,シーンとその中のオブジェクトを理解することを目指している。
これらの目的を達成するために、この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つの中核となる貢献を行う。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Learning 3D object-centric representation through prediction [12.008668555280668]
本研究では,1)離散画像からオブジェクトを抽出し,2)3次元位置を推定し,3)深度を知覚する新しいネットワークアーキテクチャを開発する。
中心となる考え方は、物体を脳が将来のシーンを効率的に予測するために使用する視覚入力の潜在原因として扱うことである。
論文 参考訳(メタデータ) (2024-03-06T14:19:11Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - 3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
人間は、画像の3D表現の基盤となる概念を基盤にすることができる。
我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文 参考訳(メタデータ) (2022-07-13T17:59:33Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Disentangling 3D Prototypical Networks For Few-Shot Concept Learning [29.02523358573336]
本稿では,RGB-D画像をオブジェクトの形状やスタイルや背景シーンの地図に分解するニューラルネットワークアーキテクチャを提案する。
我々のネットワークには、画像形成過程、世界シーンの3次元幾何学、形状スタイルの相互作用を反映したアーキテクチャバイアスが組み込まれています。
論文 参考訳(メタデータ) (2020-11-06T14:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。