論文の概要: GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection
- arxiv url: http://arxiv.org/abs/2503.20682v1
- Date: Wed, 26 Mar 2025 16:18:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:12.786210
- Title: GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection
- Title(参考訳): GLRD:3次元オープンボキャブラリ検出のためのグローバルローカル協調推論とPSLとの議論
- Authors: Xingyu Peng, Si Liu, Chen Gao, Yan Bai, Beipeng Mu, Xiaofei Wang, Huaxia Xia,
- Abstract要約: 3Dオープンボキャブラリ検出では,既製のトレーニングラベルを使わずに,点雲から新しい物体を検出することを学ぶ必要がある。
従来の手法はオブジェクトレベルの表現の学習に重点を置いており、シーンレベルの情報を無視する。
ローカルオブジェクトレベル情報とグローバルシーンレベル情報の両方を考慮し、3次元OVDタスクのためのPSLフレームワークを用いたグローバルローカル協調推論と議論を提案する。
- 参考スコア(独自算出の注目度): 32.42751762733814
- License:
- Abstract: The task of LiDAR-based 3D Open-Vocabulary Detection (3D OVD) requires the detector to learn to detect novel objects from point clouds without off-the-shelf training labels. Previous methods focus on the learning of object-level representations and ignore the scene-level information, thus it is hard to distinguish objects with similar classes. In this work, we propose a Global-Local Collaborative Reason and Debate with PSL (GLRD) framework for the 3D OVD task, considering both local object-level information and global scene-level information. Specifically, LLM is utilized to perform common sense reasoning based on object-level and scene-level information, where the detection result is refined accordingly. To further boost the LLM's ability of precise decisions, we also design a probabilistic soft logic solver (OV-PSL) to search for the optimal solution, and a debate scheme to confirm the class of confusable objects. In addition, to alleviate the uneven distribution of classes, a static balance scheme (SBC) and a dynamic balance scheme (DBC) are designed. In addition, to reduce the influence of noise in data and training, we further propose Reflected Pseudo Labels Generation (RPLG) and Background-Aware Object Localization (BAOL). Extensive experiments conducted on ScanNet and SUN RGB-D demonstrate the superiority of GLRD, where absolute improvements in mean average precision are $+2.82\%$ on SUN RGB-D and $+3.72\%$ on ScanNet in the partial open-vocabulary setting. In the full open-vocabulary setting, the absolute improvements in mean average precision are $+4.03\%$ on ScanNet and $+14.11\%$ on SUN RGB-D.
- Abstract(参考訳): LiDARをベースとした3Dオープンボキャブラリ検出(3D OVD)のタスクでは、市販のトレーニングラベルを使わずに、点雲から新しい物体を検出することを学ぶ必要がある。
従来の手法はオブジェクトレベルの表現の学習に重点を置いており、シーンレベルの情報を無視しているため、類似したクラスでオブジェクトを区別することは困難である。
本研究では,局所オブジェクトレベル情報とグローバルシーンレベル情報の両方を考慮した,3次元OVDタスクのためのPSL(GLRD)フレームワークを用いたグローバルローカル協調推論と議論を提案する。
具体的には、LLMを用いてオブジェクトレベルの情報とシーンレベルの情報に基づいて共通感覚推論を行い、検出結果を精査する。
さらに,LLMの精度決定能力を高めるために,最適解を求める確率論的ソフトロジックソルバ (OV-PSL) と,不定形オブジェクトのクラスを検証するための議論スキームを設計する。
また、クラスの不均一分布を軽減するため、静的バランススキーム(SBC)と動的バランススキーム(DBC)を設計する。
また、データ・トレーニングにおけるノイズの影響を低減するため、リフレクテッド擬似ラベル生成(RPLG)とバックグラウンド・アウェア・オブジェクト・ローカライゼーション(BAOL)を提案する。
ScanNetとSUN RGB-Dで実施された大規模な実験はGLRDの優位性を示し、平均精度の絶対的な改善はSUN RGB-Dで$+2.82\%、ScanNetで$+3.72\%である。
完全なオープン語彙設定では、平均的な精度の絶対的な改善はScanNetで$4.03\%、SUN RGB-Dで$+14.11\%である。
関連論文リスト
- STONE: A Submodular Optimization Framework for Active 3D Object Detection [20.54906045954377]
正確な3Dオブジェクト検出器をトレーニングするための鍵となる要件は、大量のLiDARベースのポイントクラウドデータが利用できることである。
本稿では,3次元物体検出装置のトレーニングにおけるラベル付けコストを大幅に削減する,統合されたアクティブな3次元物体検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-04T20:45:33Z) - Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection [44.92009038111696]
Open-Vocabulary Detection (OVD)は、事前に定義されたオブジェクトクラスなしで、あるシーンですべての興味深いオブジェクトを検出するタスクである。
我々は,ライダーに基づくOVDタスクのためのグローバルローカル協調スキーム(GLIS)を提案する。
グローバルなローカル情報では、Large Language Model (LLM) がチェーン・オブ・シント推論に適用される。
論文 参考訳(メタデータ) (2024-07-12T02:34:11Z) - Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene [22.297964850282177]
教師なし3次元検出のためのLiDAR-2D Self-paced Learning (LiSe)を提案する。
RGB画像は、正確な2Dローカライゼーションキューを提供するLiDARデータの貴重な補完となる。
本フレームワークでは,適応型サンプリングと弱いモデルアグリゲーション戦略を組み込んだ自己評価学習パイプラインを考案する。
論文 参考訳(メタデータ) (2024-07-11T14:58:49Z) - IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Learning Object-level Point Augmentor for Semi-supervised 3D Object
Detection [85.170578641966]
半教師付き3次元オブジェクト検出のための局所変換を行うオブジェクトレベルポイント拡張器(OPA)を提案する。
このようにして、結果のオーグメンタは、無関係なバックグラウンドではなく、オブジェクトインスタンスを強調するように導出されます。
ScanNetとSUN RGB-Dデータセットの実験は、提案したOPAが最先端の手法に対して好適に動作することを示している。
論文 参考訳(メタデータ) (2022-12-19T06:56:14Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。