論文の概要: Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2303.05892v1
- Date: Fri, 10 Mar 2023 12:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 15:13:27.702826
- Title: Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection
- Title(参考訳): 開ボキャブラリー物体検出のためのオブジェクトアウェア蒸留ピラミッド
- Authors: Luting Wang, Yi Liu, Penghui Du, Zihan Ding, Yue Liao, Qiaosong Qi,
Biaolong Chen, Si Liu
- Abstract要約: Open-vocabulary Object Detectionは、任意のテキストクエリによって記述されたオブジェクトを検出する汎用性を備えた、固定されたオブジェクトカテゴリのセットでトレーニングされたオブジェクト検出器を提供することを目的としている。
従来の方法では知識蒸留を用いて、事前訓練されたビジョン・アンド・ランゲージモデル(PVLM)から知識を抽出し、検出器に転送する。
本稿では,OAKEモジュールとDP機構を含むOADP(Object-Aware Distillation Pyramid)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.09136931440765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection aims to provide object detectors trained on
a fixed set of object categories with the generalizability to detect objects
described by arbitrary text queries. Previous methods adopt knowledge
distillation to extract knowledge from Pretrained Vision-and-Language Models
(PVLMs) and transfer it to detectors. However, due to the non-adaptive proposal
cropping and single-level feature mimicking processes, they suffer from
information destruction during knowledge extraction and inefficient knowledge
transfer. To remedy these limitations, we propose an Object-Aware Distillation
Pyramid (OADP) framework, including an Object-Aware Knowledge Extraction (OAKE)
module and a Distillation Pyramid (DP) mechanism. When extracting object
knowledge from PVLMs, the former adaptively transforms object proposals and
adopts object-aware mask attention to obtain precise and complete knowledge of
objects. The latter introduces global and block distillation for more
comprehensive knowledge transfer to compensate for the missing relation
information in object distillation. Extensive experiments show that our method
achieves significant improvement compared to current methods. Especially on the
MS-COCO dataset, our OADP framework reaches $35.6$ mAP$^{\text{N}}_{50}$,
surpassing the current state-of-the-art method by $3.3$ mAP$^{\text{N}}_{50}$.
Code is released at https://github.com/LutingWang/OADP.
- Abstract(参考訳): open-vocabulary object detectionは、任意のテキストクエリで記述されたオブジェクトを検出する汎用性を備えた、固定されたオブジェクトカテゴリでトレーニングされたオブジェクト検出を提供することを目的としている。
以前の方法は知識蒸留を採用し、事前訓練された視覚言語モデル(pvlms)から知識を抽出し、それを検出器に転送する。
しかし,非適応的提案作法と単一レベルの特徴模倣法により,知識抽出時の情報破壊や非効率な知識伝達に悩まされる。
これらの制限を緩和するために,オブジェクト指向知識抽出(OAKE)モジュールと蒸留ピラミッド(DP)機構を含むOADP(Object-Aware Distillation Pyramid)フレームワークを提案する。
PVLMからオブジェクト知識を抽出する場合、前者はオブジェクトの提案を適応的に変換し、オブジェクトの正確な完全な知識を得るためにオブジェクト認識マスクの注意を取り入れる。
後者は、オブジェクト蒸留における欠落関係情報を補うために、より包括的な知識伝達のためのグローバルおよびブロック蒸留を導入する。
広範な実験により,本手法は現在の手法に比べて大幅に改善できることがわかった。
特にMS-COCOデータセットでは、OADPフレームワークは35.6$ mAP$^{\text{N}}_{50}$に達し、現在の最先端メソッドを3.3$ mAP$^{\text{N}}_{50}$で上回る。
コードはhttps://github.com/lutingwang/oadpでリリースされる。
関連論文リスト
- Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。
近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。
本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T17:32:26Z) - Active Object Detection with Knowledge Aggregation and Distillation from Large Models [5.669106489320257]
状態変化中のアクティブオブジェクトを正確に検出することは、人間のインタラクションを理解し、意思決定を容易にするために不可欠である。
既存のアクティブオブジェクト検出法(AOD)は主に、サイズ、形状、手との関係など、入力内のオブジェクトの視覚的外観に依存する。
状態変化は、しばしばオブジェクト上で実行される相互作用の結果であり、AODに対してより信頼性の高い手がかりを提供するために、オブジェクトに関連する可視的相互作用に関する情報的事前利用を提案する。
提案するフレームワークは,Ego4D,Epic-Kitchens,MECCANOの4つのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-21T05:39:31Z) - Revisiting Out-of-Distribution Detection in LiDAR-based 3D Object Detection [12.633311483061647]
アウト・オブ・ディストリビューション(OOD)オブジェクトは誤分類を引き起こし、自動車両の安全性と信頼性に重大なリスクをもたらす。
我々は、ポイントクラウドを変更することなく既存のデータセットを使用できる新しい評価プロトコルを提案する。
提案手法の有効性は,新たに提案したnuScenes OODベンチマークを用いて検証した。
論文 参考訳(メタデータ) (2024-04-24T13:48:38Z) - SKDF: A Simple Knowledge Distillation Framework for Distilling Open-Vocabulary Knowledge to Open-world Object Detector [8.956773268679811]
我々は、オープンワールドの知識を言語に依存しない検出器に蒸留することでOWODタスクのためのVLMモデルを特化する。
我々は,単純なtextbfknowledge蒸留法とOWODの自動擬似ラベル機構を組み合わせることで,未知の物体検出に優れた性能が得られることを観察した。
オープン世界の未知の物体を検知するオープンワールド検出器の能力を評価するための2つのベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-14T04:47:20Z) - Learning Object-level Point Augmentor for Semi-supervised 3D Object
Detection [85.170578641966]
半教師付き3次元オブジェクト検出のための局所変換を行うオブジェクトレベルポイント拡張器(OPA)を提案する。
このようにして、結果のオーグメンタは、無関係なバックグラウンドではなく、オブジェクトインスタンスを強調するように導出されます。
ScanNetとSUN RGB-Dデータセットの実験は、提案したOPAが最先端の手法に対して好適に動作することを示している。
論文 参考訳(メタデータ) (2022-12-19T06:56:14Z) - Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。
モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。
提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-06T13:39:30Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Incremental Object Detection via Meta-Learning [77.55310507917012]
本稿では,段階的タスク間の情報を最適に共有するように,モデル勾配を再形成するメタラーニング手法を提案する。
既存のメタ学習法と比較して,本手法はタスク非依存であり,オブジェクト検出のための高容量モデルに新たなクラスやスケールを段階的に追加することができる。
論文 参考訳(メタデータ) (2020-03-17T13:40:00Z) - Progressive Object Transfer Detection [84.48927705173494]
本稿では,新しいプログレッシブオブジェクト転送検出(POTD)フレームワークを提案する。
第一に、POTDは様々なドメインの様々なオブジェクトを効果的にプログレッシブな検出手順に活用することができる。
第2に、POTDは2つの微妙な転送段階、すなわち、LSTD(low-Shot Transfer Detection)とWSTD(Weakly Supervised Transfer Detection)から構成される。
論文 参考訳(メタデータ) (2020-02-12T00:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。