論文の概要: Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection
- arxiv url: http://arxiv.org/abs/2407.08931v1
- Date: Fri, 12 Jul 2024 02:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 01:16:30.404587
- Title: Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection
- Title(参考訳): ライダーを用いた開語彙検出のためのLLMを用いたグローバルローカル協調推論
- Authors: Xingyu Peng, Yan Bai, Chen Gao, Lirong Yang, Fei Xia, Beipeng Mu, Xiaofei Wang, Si Liu,
- Abstract要約: Open-Vocabulary Detection (OVD)は、事前に定義されたオブジェクトクラスなしで、あるシーンですべての興味深いオブジェクトを検出するタスクである。
我々は,ライダーに基づくOVDタスクのためのグローバルローカル協調スキーム(GLIS)を提案する。
グローバルなローカル情報では、Large Language Model (LLM) がチェーン・オブ・シント推論に適用される。
- 参考スコア(独自算出の注目度): 44.92009038111696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Detection (OVD) is the task of detecting all interesting objects in a given scene without predefined object classes. Extensive work has been done to deal with the OVD for 2D RGB images, but the exploration of 3D OVD is still limited. Intuitively, lidar point clouds provide 3D information, both object level and scene level, to generate trustful detection results. However, previous lidar-based OVD methods only focus on the usage of object-level features, ignoring the essence of scene-level information. In this paper, we propose a Global-Local Collaborative Scheme (GLIS) for the lidar-based OVD task, which contains a local branch to generate object-level detection result and a global branch to obtain scene-level global feature. With the global-local information, a Large Language Model (LLM) is applied for chain-of-thought inference, and the detection result can be refined accordingly. We further propose Reflected Pseudo Labels Generation (RPLG) to generate high-quality pseudo labels for supervision and Background-Aware Object Localization (BAOL) to select precise object proposals. Extensive experiments on ScanNetV2 and SUN RGB-D demonstrate the superiority of our methods. Code is released at https://github.com/GradiusTwinbee/GLIS.
- Abstract(参考訳): Open-Vocabulary Detection (OVD)は、事前に定義されたオブジェクトクラスなしで、あるシーンですべての興味深いオブジェクトを検出するタスクである。
2D RGB画像のOVDに対する大規模な取り組みは行われているが、3D OVDの探索はまだ限られている。
直感的には、ライダーポイントクラウドはオブジェクトレベルとシーンレベルの両方の3D情報を提供し、信頼できる検出結果を生成する。
しかし、従来のライダーベースのOVD手法は、シーンレベルの情報の本質を無視して、オブジェクトレベルの特徴の使用のみに焦点を当てていた。
本稿では、オブジェクトレベルの検出結果を生成するローカルブランチと、シーンレベルのグローバル機能を得るグローバルブランチを含む、ライダーベースのOVDタスクのためのグローバルローカル協調スキーム(GLIS)を提案する。
グローバルなローカル情報を用いて、連鎖推定にLarge Language Model(LLM)を適用し、それに応じて検出結果を洗練することができる。
さらに,Reflectioned Pseudo Labels Generation (RPLG) を提案し,高品質な擬似ラベルを生成するとともに,背景認識オブジェクトローカライゼーション (BAOL) を用いて正確なオブジェクト提案を選択する。
ScanNetV2 と SUN RGB-D の大規模な実験により,本手法の優位性を実証した。
コードはhttps://github.com/GradiusTwinbee/GLISで公開されている。
関連論文リスト
- DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Simple Image-level Classification Improves Open-vocabulary Object
Detection [27.131298903486474]
Open-Vocabulary Object Detection (OVOD) は、検出モデルが訓練された与えられたベースカテゴリのセットを超えて、新しいオブジェクトを検出することを目的としている。
近年のOVOD法は,CLIPなどの画像レベルの事前学習型視覚言語モデル(VLM)を,地域レベルの知識蒸留,地域レベルの学習,地域レベルの事前学習といった領域レベルのオブジェクト検出タスクに適応させることに重点を置いている。
これらの手法は、地域視覚概念の認識において顕著な性能を示してきたが、VLMの強力なグローバルシーン理解能力を活用するには弱い。
論文 参考訳(メタデータ) (2023-12-16T13:06:15Z) - What Makes Good Open-Vocabulary Detector: A Disassembling Perspective [6.623703413255309]
Open-vocabulary Detection (OVD)は、新しいオブジェクト検出パラダイムである。
先行研究は主にオープン語彙分類部に焦点をあて、ローカライゼーション部分にはあまり注意を払わなかった。
本研究は, 局所化とクロスモーダル分類の改善が相互に補完し, 良好なOVD検出器を共同で構成することを示す。
論文 参考訳(メタデータ) (2023-09-01T03:03:50Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Learning Object-level Point Augmentor for Semi-supervised 3D Object
Detection [85.170578641966]
半教師付き3次元オブジェクト検出のための局所変換を行うオブジェクトレベルポイント拡張器(OPA)を提案する。
このようにして、結果のオーグメンタは、無関係なバックグラウンドではなく、オブジェクトインスタンスを強調するように導出されます。
ScanNetとSUN RGB-Dデータセットの実験は、提案したOPAが最先端の手法に対して好適に動作することを示している。
論文 参考訳(メタデータ) (2022-12-19T06:56:14Z) - 3DLG-Detector: 3D Object Detection via Simultaneous Local-Global Feature
Learning [15.995277437128452]
不規則点雲の局所的・大域的特徴の捕獲は3次元物体検出に不可欠である(3OD)
本稿では,3ODを肯定的に利用するシーンポイント雲の局所的な特徴を同時に学習するモジュールについて検討する。
局所的特徴学習(3DLG-Detector)を併用した効果的な3ODネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-31T12:23:40Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - MLCVNet: Multi-Level Context VoteNet for 3D Object Detection [51.45832752942529]
我々は,最先端のVoteNet上に構築された3次元オブジェクトを相関的に認識するためのマルチレベルコンテキストVoteNet(MLCVNet)を提案する。
異なるレベルのコンテキスト情報をエンコードするために,VoteNetの投票・分類段階に3つのコンテキストモジュールを導入する。
本手法は,3次元物体検出データセットの精度向上に有効な手法である。
論文 参考訳(メタデータ) (2020-04-12T19:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。