論文の概要: 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection
- arxiv url: http://arxiv.org/abs/2507.23567v1
- Date: Thu, 31 Jul 2025 13:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.832474
- Title: 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection
- Title(参考訳): 3D-MOOD:モノクロオープンセット物体検出のための2Dから3Dへのリフティング
- Authors: Yung-Hsu Yang, Luigi Piccinelli, Mattia Segu, Siyuan Li, Rui Huang, Yuqian Fu, Marc Pollefeys, Hermann Blum, Zuria Bauer,
- Abstract要約: 最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
- 参考スコア(独自算出の注目度): 58.78881632019072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular 3D object detection is valuable for various applications such as robotics and AR/VR. Existing methods are confined to closed-set settings, where the training and testing sets consist of the same scenes and/or object categories. However, real-world applications often introduce new environments and novel object categories, posing a challenge to these methods. In this paper, we address monocular 3D object detection in an open-set setting and introduce the first end-to-end 3D Monocular Open-set Object Detector (3D-MOOD). We propose to lift the open-set 2D detection into 3D space through our designed 3D bounding box head, enabling end-to-end joint training for both 2D and 3D tasks to yield better overall performance. We condition the object queries with geometry prior and overcome the generalization for 3D estimation across diverse scenes. To further improve performance, we design the canonical image space for more efficient cross-dataset training. We evaluate 3D-MOOD on both closed-set settings (Omni3D) and open-set settings (Omni3D to Argoverse 2, ScanNet), and achieve new state-of-the-art results. Code and models are available at royyang0714.github.io/3D-MOOD.
- Abstract(参考訳): モノクロ3Dオブジェクト検出は、ロボティクスやAR/VRといった様々な用途に有用である。
既存のメソッドはクローズドセットの設定に限られており、トレーニングセットとテストセットは同じシーンと/またはオブジェクトカテゴリで構成されている。
しかし、現実世界のアプリケーションは、しばしば新しい環境や新しいオブジェクトカテゴリを導入し、これらの手法に挑戦する。
本稿では,モノクロ3Dオブジェクトをオープンセットで検出し,最初のエンドツーエンドのモノクロ3Dオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
設計した3次元バウンディングボックスヘッドを用いてオープンセット2次元検出を3次元空間に引き上げることを提案する。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
性能向上のために,より効率的なクロスデータセットトレーニングのための標準画像空間を設計する。
クローズドセット設定 (Omni3D) とオープンセット設定 (Omni3D to Argoverse 2, ScanNet) の両方で3D-MOODを評価し, 最新の結果を得た。
コードとモデルはroyyang0714.github.io/3D-MOODで利用可能である。
関連論文リスト
- Detect Anything 3D in the Wild [34.293450721860616]
DetAny3Dは任意のカメラ構成で新しい物体を検知できる3D検出基盤モデルである。
2D知識を3Dに効果的に転送するために、DetAny3Dは2DアグリゲータとZero-Embedding Mappingによる3Dインタプリタという2つのコアモジュールを組み込んでいる。
DetAny3Dは、未確認のカテゴリや新しいカメラ構成の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-10T17:59:22Z) - V-MIND: Building Versatile Monocular Indoor 3D Detector with Diverse 2D Annotations [17.49394091283978]
V-MIND(Versatile Monocular Indoor Detector)は,室内3D検出器の性能を向上させる。
大規模2次元画像を3次元点雲に変換し,その後に擬似3次元境界ボックスを導出することにより,3次元学習データを生成する。
V-MINDはOmni3D屋内データセット上の幅広いクラスにわたる最先端のオブジェクト検出性能を実現する。
論文 参考訳(メタデータ) (2024-12-16T03:28:00Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。