論文の概要: Indoor Scene Recognition in 3D
- arxiv url: http://arxiv.org/abs/2002.12819v2
- Date: Thu, 2 Jul 2020 21:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 02:03:57.627652
- Title: Indoor Scene Recognition in 3D
- Title(参考訳): 室内シーンの3次元認識
- Authors: Shengyu Huang, Mikhail Usvyatsov and Konrad Schindler
- Abstract要約: 既存のアプローチでは、2D画像や2.5Dレンジ画像に基づいてシーンを分類しようとする。
本稿では3Dポイントクラウド(またはボクセル)データからのシーン認識について検討する。
本研究では,2次元鳥眼の視線に基づく手法よりも優れることを示す。
- 参考スコア(独自算出の注目度): 26.974703983293093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognising in what type of environment one is located is an important
perception task. For instance, for a robot operating in indoors it is helpful
to be aware whether it is in a kitchen, a hallway or a bedroom. Existing
approaches attempt to classify the scene based on 2D images or 2.5D range
images. Here, we study scene recognition from 3D point cloud (or voxel) data,
and show that it greatly outperforms methods based on 2D birds-eye views.
Moreover, we advocate multi-task learning as a way of improving scene
recognition, building on the fact that the scene type is highly correlated with
the objects in the scene, and therefore with its semantic segmentation into
different object classes. In a series of ablation studies, we show that
successful scene recognition is not just the recognition of individual objects
unique to some scene type (such as a bathtub), but depends on several different
cues, including coarse 3D geometry, colour, and the (implicit) distribution of
object categories. Moreover, we demonstrate that surprisingly sparse 3D data is
sufficient to classify indoor scenes with good accuracy.
- Abstract(参考訳): どのような環境があるかを認識することは重要な認識課題である。
例えば、屋内で動作しているロボットは、キッチン、廊下、寝室にいるかどうかを認識するのに役立ちます。
既存のアプローチでは、2D画像や2.5Dレンジ画像に基づいてシーンを分類しようとする。
本研究では,3dポイントクラウド(voxel)データからシーン認識を解析し,2d鳥眼の視点に基づく手法を大きく上回ることを示す。
さらに,シーン認識の改善方法としてマルチタスク学習を提唱し,シーンタイプがシーン内のオブジェクトと高度に相関していることと,その意味的セグメンテーションを異なるオブジェクトクラスに分類することに着目した。
一連のアブレーション研究において、成功したシーン認識は、特定のシーンタイプ(浴槽など)に固有の個々のオブジェクトの認識だけでなく、粗い3次元形状、色、オブジェクトカテゴリの(簡単な)分布など、いくつかの異なる手がかりに依存することを示した。
さらに,室内のシーンを精度良く分類するのに,驚くほどスパースな3Dデータが十分であることを示す。
関連論文リスト
- 3D Feature Distillation with Object-Centric Priors [9.626027459292926]
CLIPのような2Dビジョン言語モデルは、2Dイメージのオープン語彙グラウンドディングに優れた機能を備えているため、広く普及している。
最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有のニューラルネットワークを学ぶか、室内のスキャンデータにフォーカスする。
提案手法は, 3次元CLIPの特徴を再構築し, 接地能力と空間的整合性を改善した。
論文 参考訳(メタデータ) (2024-06-26T20:16:49Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - HyperDet3D: Learning a Scene-conditioned 3D Object Detector [154.84798451437032]
本研究では3次元物体検出のためのシーン条件付き事前知識を探索するためにHyperDet3Dを提案する。
我々のHyperDet3Dは、ScanNetとSUN RGB-Dデータセットの3Dオブジェクト検出ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-12T07:57:58Z) - Recognizing Scenes from Novel Viewpoints [99.90914180489456]
人間は、少数の2Dビューから3Dのシーンを知覚することができる。AIエージェントは、少数の画像しか持たない任意の視点からシーンを認識することで、シーンとそのオブジェクトと効率的に対話することができる。
本稿では,新しいシーンのいくつかのRGB画像を入力として取り込んで,そのシーンを意味カテゴリーに分類することで,新たな視点から認識するモデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T18:59:40Z) - Indoor Scene Generation from a Collection of Semantic-Segmented Depth
Images [18.24156991697044]
セマンティックセグメンテーション深度画像から学習した生成モデルを用いて室内3次元シーンを作成する手法を提案する。
特定の大きさの部屋が与えられた場合、ランダムにサンプリングされた潜伏コードから室内の3Dオブジェクトを自動的に生成する。
既存の手法と比較して,本手法はモデリングや3次元シーンの取得の作業量を効率的に削減するだけでなく,より優れたオブジェクト形状を生成する。
論文 参考訳(メタデータ) (2021-08-20T06:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。