論文の概要: Few-Shot Incremental 3D Object Detection in Dynamic Indoor Environments
- arxiv url: http://arxiv.org/abs/2604.07997v1
- Date: Thu, 09 Apr 2026 09:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.822416
- Title: Few-Shot Incremental 3D Object Detection in Dynamic Indoor Environments
- Title(参考訳): 動的室内環境におけるわずかなショットインクリメンタル3次元物体検出
- Authors: Yun Zhu, Jianjun Qian, Jian Yang, Jin Xie, Na Zhao,
- Abstract要約: FI3Detは,数個の新しいサンプルを用いて,効率的な3次元認識のためのフレームワークである。
視覚言語モデル(VLM)を使用して、目に見えないカテゴリの知識を学習する。
FI3Detはベースラインメソッドよりも強力で一貫した改善を実現している。
- 参考スコア(独自算出の注目度): 43.43378522248249
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Incremental 3D object perception is a critical step toward embodied intelligence in dynamic indoor environments. However, existing incremental 3D detection methods rely on extensive annotations of novel classes for satisfactory performance. To address this limitation, we propose FI3Det, a Few-shot Incremental 3D Detection framework that enables efficient 3D perception with only a few novel samples by leveraging vision-language models (VLMs) to learn knowledge of unseen categories. FI3Det introduces a VLM-guided unknown object learning module in the base stage to enhance perception of unseen categories. Specifically, it employs VLMs to mine unknown objects and extract comprehensive representations, including 2D semantic features and class-agnostic 3D bounding boxes. To mitigate noise in these representations, a weighting mechanism is further designed to re-weight the contributions of point- and box-level features based on their spatial locations and feature consistency within each box. Moreover, FI3Det proposes a gated multimodal prototype imprinting module, where category prototypes are constructed from aligned 2D semantic and 3D geometric features to compute classification scores, which are then fused via a multimodal gating mechanism for novel object detection. As the first framework for few-shot incremental 3D object detection, we establish both batch and sequential evaluation settings on two datasets, ScanNet V2 and SUN RGB-D, where FI3Det achieves strong and consistent improvements over baseline methods. Code is available at https://github.com/zyrant/FI3Det.
- Abstract(参考訳): インクリメンタル3次元物体知覚は、動的屋内環境におけるインボディードインテリジェンスへの重要なステップである。
しかし、既存のインクリメンタルな3D検出手法は、満足なパフォーマンスのために、新しいクラスの広範なアノテーションに依存している。
この制限に対処するために,視覚言語モデル(VLM)を活用して,未知のカテゴリの知識を学習することにより,少数の新しいサンプルで効率的な3次元認識を可能にするFew-shot Incremental 3D DetectionフレームワークであるFI3Detを提案する。
FI3Detは、VLMで誘導された未知のオブジェクト学習モジュールをベースステージに導入し、目に見えないカテゴリの認識を高める。
具体的には、VLMを使用して未知のオブジェクトをマイニングし、2Dセマンティック特徴やクラスに依存しない3Dバウンディングボックスを含む包括的な表現を抽出する。
これらの表現におけるノイズを軽減するため、重み付け機構はさらに、各ボックス内の空間的位置と特徴の整合性に基づいて、点レベルの特徴と箱レベルの特徴の寄与を再重み付けするように設計されている。
さらに、FI3Detは、カテゴリーのプロトタイプを整列した2次元意味と3次元幾何学的特徴から構築し、分類スコアを計算し、新しいオブジェクト検出のためのマルチモーダルゲーティング機構を介して融合するゲート型マルチモーダルプロトタイプインプリンティングモジュールを提案する。
2つのデータセット、ScanNet V2 と SUN RGB-D のバッチおよびシーケンシャルな評価設定を確立し、FI3Det はベースライン法よりも強力で一貫した改善を実現している。
コードはhttps://github.com/zyrant/FI3Det.comで入手できる。
関連論文リスト
- Open Vocabulary Monocular 3D Object Detection [10.424711580213616]
RGB画像から3次元空間内の物体を検出しローカライズすることを目的とした新しい課題であるオープンボキャブラリモノクロ3Dオブジェクト検出の研究を開拓した。
オープンボキャブラリ2次元検出器を活用して2次元境界ボックスを3次元空間に持ち上げるクラス非依存的手法を提案する。
提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
論文 参考訳(メタデータ) (2024-11-25T18:59:17Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - OA-DET3D: Embedding Object Awareness as a General Plug-in for Multi-Camera 3D Object Detection [77.43427778037203]
我々は3Dオブジェクト検出を改善するプラグインモジュールであるOA-DET3Dを紹介する。
OA-DET3Dは、オブジェクト中心の深度情報と前景の擬似点を活用することにより、オブジェクトの表現を高める。
我々は、OA-DET3Dの有効性を検証するために、nuScenesデータセットとArgoverse 2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。