論文の概要: LASA: Instance Reconstruction from Real Scans using A Large-scale
Aligned Shape Annotation Dataset
- arxiv url: http://arxiv.org/abs/2312.12418v1
- Date: Tue, 19 Dec 2023 18:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 14:26:46.774889
- Title: LASA: Instance Reconstruction from Real Scans using A Large-scale
Aligned Shape Annotation Dataset
- Title(参考訳): lasa: 大規模アライメント型アノテーションデータセットを用いた実スキャンからのインスタンス再構成
- Authors: Haolin Liu, Chongjie Ye, Yinyu Nie, Yingfan He, Xiaoguang Han
- Abstract要約: 本稿では,新しいクロスモーダル形状再構成法とOccGOD法を提案する。
本手法は,インスタンスレベルのシーン再構成と3次元オブジェクト検出の両タスクにおいて,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 17.530432165466507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instance shape reconstruction from a 3D scene involves recovering the full
geometries of multiple objects at the semantic instance level. Many methods
leverage data-driven learning due to the intricacies of scene complexity and
significant indoor occlusions. Training these methods often requires a
large-scale, high-quality dataset with aligned and paired shape annotations
with real-world scans. Existing datasets are either synthetic or misaligned,
restricting the performance of data-driven methods on real data. To this end,
we introduce LASA, a Large-scale Aligned Shape Annotation Dataset comprising
10,412 high-quality CAD annotations aligned with 920 real-world scene scans
from ArkitScenes, created manually by professional artists. On this top, we
propose a novel Diffusion-based Cross-Modal Shape Reconstruction (DisCo)
method. It is empowered by a hybrid feature aggregation design to fuse
multi-modal inputs and recover high-fidelity object geometries. Besides, we
present an Occupancy-Guided 3D Object Detection (OccGOD) method and demonstrate
that our shape annotations provide scene occupancy clues that can further
improve 3D object detection. Supported by LASA, extensive experiments show that
our methods achieve state-of-the-art performance in both instance-level scene
reconstruction and 3D object detection tasks.
- Abstract(参考訳): 3dシーンからのインスタンス形状再構成では、セマンティックなインスタンスレベルで複数のオブジェクトの完全なジオメトリを復元する。
多くの方法は、シーンの複雑さと重要な屋内咬合の複雑さのためにデータ駆動学習を利用する。
これらの方法のトレーニングには,現実のスキャンと整列型とペア型アノテーションを備えた,大規模で高品質なデータセットが必要となることが多い。
既存のデータセットは合成または不整合であり、実際のデータに対するデータ駆動メソッドのパフォーマンスを制限している。
そこで我々は,ArkitScenesから920個の実世界のシーンスキャンを手作業で作成し,高品質CADアノテーション10,412個の大規模アラインド形状アノテーションデータセットであるLASAを紹介した。
本稿では,新しい拡散型クロスモーダル形状再構成法(disco)を提案する。
ハイブリッド機能アグリゲーション設計により、多モード入力を融合し、高忠実度オブジェクトジオメトリを復元する。
さらに,OccGOD法を提案するとともに,形状アノテーションが3次元物体検出をさらに改善するためのシーン占有手がかりを提供することを示す。
LASAによって支援された広汎な実験により,本手法はインスタンスレベルのシーン再構成と3次元オブジェクト検出の両タスクにおいて,最先端の性能を実現する。
関連論文リスト
- Category-level Object Detection, Pose Estimation and Reconstruction from Stereo Images [15.921719523588996]
既存の単分子法とRGB-D法は、欠落や深さの測定によるスケールの曖昧さに悩まされている。
本稿では,カテゴリーレベルの物体検出のための一段階的アプローチであるCoDERSを提案する。
私たちのデータセット、コード、デモはプロジェクトのページで公開されます。
論文 参考訳(メタデータ) (2024-07-09T15:59:03Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Shape Anchor Guided Holistic Indoor Scene Understanding [9.463220988312218]
本研究では, 室内環境の堅牢な理解のための形状アンカー案内学習戦略(AncLearn)を提案する。
AncLearnは、インスタンス表面を動的に(i)アンミックスノイズとターゲット関連の機能に適合するアンカーを生成し、検出段階で信頼性の高い提案を提供する。
我々は,高品質なセマンティックシーンモデルを生成するために,AncLearnを再構成検出学習システム(AncRec)に組み込む。
論文 参考訳(メタデータ) (2023-09-20T08:30:20Z) - Weakly Supervised 3D Object Detection with Multi-Stage Generalization [62.96670547848691]
擬似ラベル生成と多段階一般化を含むBA$2$-Detを導入する。
一般化の3つの段階、完全から部分へ、静的から動的へ、そして遠い距離へ進む。
BA$2$-Detは、KITTIデータセットの20%の相対的な改善を達成できる。
論文 参考訳(メタデータ) (2023-06-08T17:58:57Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z) - DEF: Deep Estimation of Sharp Geometric Features in 3D Shapes [43.853000396885626]
サンプル3次元形状のシャープな幾何学的特徴を予測するための学習ベースフレームワークを提案する。
個々のパッチの結果を融合させることで、既存のデータ駆動方式では処理できない大きな3Dモデルを処理できる。
論文 参考訳(メタデータ) (2020-11-30T18:21:00Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。