論文の概要: TUN3D: Towards Real-World Scene Understanding from Unposed Images
- arxiv url: http://arxiv.org/abs/2509.21388v1
- Date: Tue, 23 Sep 2025 20:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.895303
- Title: TUN3D: Towards Real-World Scene Understanding from Unposed Images
- Title(参考訳): TUN3D:未公開画像からの現実世界のシーン理解を目指して
- Authors: Anton Konushin, Nikita Drozdov, Bulat Gabdullin, Alexey Zakharov, Anna Vorontsova, Danila Rukhovich, Maksim Kolodiazhnyi,
- Abstract要約: TUN3Dは、実際のスキャンにおいて、関節配置推定と3次元物体検出に対処する新しい手法である。
地上カメラのポーズや深度監視は必要ない。
3つの挑戦的なシーン理解ベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 11.23080017635425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layout estimation and 3D object detection are two fundamental tasks in indoor scene understanding. When combined, they enable the creation of a compact yet semantically rich spatial representation of a scene. Existing approaches typically rely on point cloud input, which poses a major limitation since most consumer cameras lack depth sensors and visual-only data remains far more common. We address this issue with TUN3D, the first method that tackles joint layout estimation and 3D object detection in real scans, given multi-view images as input, and does not require ground-truth camera poses or depth supervision. Our approach builds on a lightweight sparse-convolutional backbone and employs two dedicated heads: one for 3D object detection and one for layout estimation, leveraging a novel and effective parametric wall representation. Extensive experiments show that TUN3D achieves state-of-the-art performance across three challenging scene understanding benchmarks: (i) using ground-truth point clouds, (ii) using posed images, and (iii) using unposed images. While performing on par with specialized 3D object detection methods, TUN3D significantly advances layout estimation, setting a new benchmark in holistic indoor scene understanding. Code is available at https://github.com/col14m/tun3d .
- Abstract(参考訳): レイアウト推定と3次元物体検出は,屋内シーン理解における2つの基本的な課題である。
組み合わせることで、シーンのコンパクトでセマンティックにリッチな空間表現を作成することができる。
既存のアプローチは通常、ポイントクラウド入力に依存しており、ほとんどの消費者向けカメラには奥行きセンサーがなく、視覚のみのデータの方がずっと一般的であるため、大きな制限が生じる。
TUN3Dによりこの問題に対処し、実際のスキャンで関節レイアウト推定と3次元物体検出に取り組み、マルチビュー画像を入力として与え、地中カメラのポーズや深度監視を必要としない。
提案手法は, 軽量なスパース畳み込みバックボーン上に構築され, 3次元物体検出用とレイアウト推定用という2つの専用ヘッドを用いて, 新規で効果的なパラメトリック壁表現を活用している。
大規模な実験により、TUN3Dは3つの困難なシーン理解ベンチマークで最先端のパフォーマンスを達成した。
(i)地平線雲の使用
(二)ポーズ画像の使用、及び
(三)未ポーズ画像の使用。
TUN3Dは、特殊な3Dオブジェクト検出手法と同等に動作しながら、レイアウト推定を大幅に進歩させ、総合的な屋内シーン理解における新しいベンチマークを設定した。
コードはhttps://github.com/col14m/tun3dで入手できる。
関連論文リスト
- Sparse Multiview Open-Vocabulary 3D Detection [27.57172918603858]
3Dオブジェクト検出は伝統的に、固定されたカテゴリのセットを検出するトレーニングによって解決されてきた。
本研究では,オープンボキャブラリによる3次元物体検出の課題について検討する。
我々のアプローチは、計算コストのかかる3D特徴フュージョンを使わずに、事前訓練されたオフザシェルフ2Dファンデーションモデルに頼っている。
論文 参考訳(メタデータ) (2025-09-19T12:22:24Z) - 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [62.57179069154312]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - SeSame: Simple, Easy 3D Object Detection with Point-Wise Semantics [0.7373617024876725]
自律運転では、3Dオブジェクト検出は、経路計画や動き推定を含む下流タスクに対してより正確な情報を提供する。
本稿では,既存のLiDARのみに基づく3Dオブジェクト検出における意味情報の強化を目的としたSeSameを提案する。
KITTIオブジェクト検出ベンチマークにおいて,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-03-11T08:17:56Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。