論文の概要: Towards 3D Scene Understanding by Referring Synthetic Models
- arxiv url: http://arxiv.org/abs/2203.10546v1
- Date: Sun, 20 Mar 2022 13:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:49:23.686189
- Title: Towards 3D Scene Understanding by Referring Synthetic Models
- Title(参考訳): 合成モデルによる3次元シーン理解に向けて
- Authors: Runnan Chen, Xinge Zhu, Nenglun Chen, Dawei Wang, Wei Li, Yuexin Ma,
Ruigang Yang, Wenping Wang
- Abstract要約: メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
- 参考スコア(独自算出の注目度): 65.74211112607315
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Promising performance has been achieved for visual perception on the point
cloud. However, the current methods typically rely on labour-extensive
annotations on the scene scans. In this paper, we explore how synthetic models
alleviate the real scene annotation burden, i.e., taking the labelled 3D
synthetic models as reference for supervision, the neural network aims to
recognize specific categories of objects on a real scene scan (without scene
annotation for supervision). The problem studies how to transfer knowledge from
synthetic 3D models to real 3D scenes and is named Referring Transfer Learning
(RTL). The main challenge is solving the model-to-scene (from a single model to
the scene) and synthetic-to-real (from synthetic model to real scene's object)
gap between the synthetic model and the real scene. To this end, we propose a
simple yet effective framework to perform two alignment operations. First,
physical data alignment aims to make the synthetic models cover the diversity
of the scene's objects with data processing techniques. Then a novel
\textbf{convex-hull regularized feature alignment} introduces learnable
prototypes to project the point features of both synthetic models and real
scenes to a unified feature space, which alleviates the domain gap. These
operations ease the model-to-scene and synthetic-to-real difficulty for a
network to recognize the target objects on a real unseen scene. Experiments
show that our method achieves the average mAP of 46.08\% and 55.49\% on the
ScanNet and S3DIS datasets by learning the synthetic models from the ModelNet
dataset. Code will be publicly available.
- Abstract(参考訳): point cloud上での視覚的な認識では、有望なパフォーマンスが達成されている。
しかし、現在の手法は通常、シーンスキャンの労働力拡張アノテーションに依存している。
本稿では,合成モデルが実際のシーンアノテーションの負担を軽減する方法について検討する。例えば,ラベル付き3d合成モデルを監督の基準とするニューラルネットは,実際のシーンスキャンにおいて,オブジェクトの特定のカテゴリを認識することを目的としている(シーンアノテーションを使わずに)。
この問題は、合成3Dモデルから実際の3Dシーンへ知識を伝達する方法を研究し、Referring Transfer Learning (RTL) と呼ばれている。
主な課題は、合成モデルと実シーンの間の(合成モデルから実シーンへの)モデル・ツー・シーンと(合成モデルから実シーンのオブジェクトへの)合成・トゥ・リアルのギャップを解決することである。
そこで本研究では,二つのアライメント操作を行うための単純かつ効果的なフレームワークを提案する。
まず、物理データアライメントは、合成モデルがシーンのオブジェクトの多様性をデータ処理技術でカバーすることを目的としている。
次に、新しい \textbf{convex-hull regularized feature alignment} は、学習可能なプロトタイプを導入し、合成モデルと実シーンの両方のポイント特徴を統一された特徴空間に投影し、ドメインギャップを軽減する。
これらの操作により、ネットワークが実際の見えないシーンで対象のオブジェクトを認識するのが難しくなる。
実験の結果,ScanNet および S3DIS データセットの平均 mAP は 46.08 % と 55.49 % であることがわかった。
コードは公開されます。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。
実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - Control-NeRF: Editable Feature Volumes for Scene Rendering and
Manipulation [58.16911861917018]
高品質な新規ビュー合成を実現しつつ,フレキシブルな3次元画像コンテンツ操作を実現するための新しい手法を提案する。
モデルペアはシーンに依存しないニューラルネットワークを用いてシーン固有の特徴ボリュームを学習する。
我々は、シーンの混合、オブジェクトの変形、シーンへのオブジェクト挿入など、さまざまなシーン操作を実証すると同時に、写真リアリスティックな結果も生成する。
論文 参考訳(メタデータ) (2022-04-22T17:57:00Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。