論文の概要: Domain Adaptation for Large-Vocabulary Object Detectors
- arxiv url: http://arxiv.org/abs/2401.06969v2
- Date: Fri, 10 May 2024 07:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 20:17:21.485105
- Title: Domain Adaptation for Large-Vocabulary Object Detectors
- Title(参考訳): 大語彙物体検出器の領域適応
- Authors: Kai Jiang, Jiaxing Huang, Weiying Xie, Jie Lei, Yunsong Li, Ling Shao, Shijian Lu,
- Abstract要約: 本稿では,CLIPにおける暗黙的知識グラフ(KG)を利用した知識グラフ蒸留手法であるKGDについて述べる。
複数の広く採用されている検出ベンチマークに対する実験により、KGDは最先端技術よりも大きなマージンで一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 103.16365373806829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-vocabulary object detectors (LVDs) aim to detect objects of many categories, which learn super objectness features and can locate objects accurately while applied to various downstream data. However, LVDs often struggle in recognizing the located objects due to domain discrepancy in data distribution and object vocabulary. At the other end, recent vision-language foundation models such as CLIP demonstrate superior open-vocabulary recognition capability. This paper presents KGD, a Knowledge Graph Distillation technique that exploits the implicit knowledge graphs (KG) in CLIP for effectively adapting LVDs to various downstream domains. KGD consists of two consecutive stages: 1) KG extraction that employs CLIP to encode downstream domain data as nodes and their feature distances as edges, constructing KG that inherits the rich semantic relations in CLIP explicitly; and 2) KG encapsulation that transfers the extracted KG into LVDs to enable accurate cross-domain object classification. In addition, KGD can extract both visual and textual KG independently, providing complementary vision and language knowledge for object localization and object classification in detection tasks over various downstream domains. Experiments over multiple widely adopted detection benchmarks show that KGD outperforms the state-of-the-art consistently by large margins.
- Abstract(参考訳): 大語彙オブジェクト検出器(LVD)は、多くのカテゴリのオブジェクトを検出し、スーパーオブジェクト性の特徴を学習し、さまざまな下流データに適用しながら、オブジェクトを正確に検出することを目的としている。
しかし、LVDは、データ分散とオブジェクト語彙におけるドメインの相違により、位置するオブジェクトを認識するのに苦労することが多い。
一方、CLIPのような近年のビジョン言語基盤モデルは、優れたオープン語彙認識能力を示している。
本稿では,CLIPにおける暗黙的知識グラフ(KG)を利用した知識グラフ蒸留手法であるKGDについて述べる。
KGDは2つの段階から成り立っている。
1) 下流ドメインデータをノードとしてエンコードし、特徴距離をエッジとして、CLIPのリッチなセマンティック関係を明示的に継承するKGを構築するためにCLIPを使用するKG抽出。
2) 抽出したKGをLVDに変換するKGカプセル化により, 正確なクロスドメインオブジェクト分類が可能となった。
さらに、KGDは視覚とテキストの両方のKGを独立に抽出することができ、様々な下流ドメイン上の検出タスクにおいて、オブジェクトのローカライゼーションとオブジェクト分類のための補完的な視覚と言語知識を提供する。
複数の広く採用されている検出ベンチマークに対する実験により、KGDは最先端技術よりも大きなマージンで一貫して優れていることが示された。
関連論文リスト
- Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。
近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。
本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T17:32:26Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning [13.667326007851674]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - Learning Knowledge-Enhanced Contextual Language Representations for
Domain Natural Language Understanding [46.00400830499326]
我々は,様々なclosed dOmains(KANGAROO)のための知識強化型LANGuAge表現学習フレームワークを提案する。
実験では, 各種知識認識タスクおよび一般NLPタスクに対して, フルおよび少数ショットの学習環境において, カンガロオの評価を行った。
論文 参考訳(メタデータ) (2023-11-12T07:37:24Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Link-Intensive Alignment for Incomplete Knowledge Graphs [28.213397255810936]
本研究では,不完全KGと表現学習の整合性の問題に対処する。
我々のフレームワークは、推移性に基づく2つの特徴チャネルと近接性に基づく2つの特徴チャネルを利用する。
2つの特徴チャネルは、入力KG間で重要な特徴を交換するために共同で学習される。
また,学習過程中に欠落したリンクを検出し,回復するリンク検出装置も開発した。
論文 参考訳(メタデータ) (2021-12-17T00:41:28Z) - BiDet: An Efficient Binarized Object Detector [96.19708396510894]
本稿では,効率的な物体検出のためのバイナライズニューラルネットワークのBiDetを提案する。
我々のBiDetは、冗長除去による物体検出にバイナリニューラルネットワークの表現能力を完全に活用している。
我々の手法は、最先端のバイナリニューラルネットワークを大きなマージンで上回る。
論文 参考訳(メタデータ) (2020-03-09T08:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。