論文の概要: Domain Adaptation for Large-Vocabulary Object Detectors
- arxiv url: http://arxiv.org/abs/2401.06969v1
- Date: Sat, 13 Jan 2024 03:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:32:45.122916
- Title: Domain Adaptation for Large-Vocabulary Object Detectors
- Title(参考訳): 大語彙物体検出器の領域適応
- Authors: Kai Jiang, Jiaxing Huang, Weiying Xie, Yunsong Li, Ling Shao, Shijian
Lu
- Abstract要約: 本稿では,CLIPにおける暗黙的知識グラフ(KG)を利用した知識グラフ蒸留手法であるKGDについて述べる。
複数の広く採用されている検出ベンチマークに対する実験により、KGDは最先端技術よりも大きなマージンで一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 111.13119809216313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-vocabulary object detectors (LVDs) aim to detect objects of many
categories, which learn super objectness features and can locate objects
accurately while applied to various downstream data. However, LVDs often
struggle in recognizing the located objects due to domain discrepancy in data
distribution and object vocabulary. At the other end, recent vision-language
foundation models such as CLIP demonstrate superior open-vocabulary recognition
capability. This paper presents KGD, a Knowledge Graph Distillation technique
that exploits the implicit knowledge graphs (KG) in CLIP for effectively
adapting LVDs to various downstream domains. KGD consists of two consecutive
stages: 1) KG extraction that employs CLIP to encode downstream domain data as
nodes and their feature distances as edges, constructing KG that inherits the
rich semantic relations in CLIP explicitly; and 2) KG encapsulation that
transfers the extracted KG into LVDs to enable accurate cross-domain object
classification. In addition, KGD can extract both visual and textual KG
independently, providing complementary vision and language knowledge for object
localization and object classification in detection tasks over various
downstream domains. Experiments over multiple widely adopted detection
benchmarks show that KGD outperforms the state-of-the-art consistently by large
margins.
- Abstract(参考訳): 大語彙オブジェクト検出器(LVD)は、多くのカテゴリのオブジェクトを検出し、スーパーオブジェクト性の特徴を学習し、さまざまな下流データに適用しながらオブジェクトを正確に検出する。
しかし、LVDは、データ分散とオブジェクト語彙におけるドメインの相違により、位置するオブジェクトを認識するのに苦労することが多い。
一方、CLIPのような近年のビジョン言語基盤モデルは、優れたオープン語彙認識能力を示している。
本稿では,CLIPにおける暗黙的知識グラフ(KG)を利用した知識グラフ蒸留手法であるKGDについて述べる。
KGDは2つの段階からなる。
1) 下流ドメインデータをノードとしてエンコードし、特徴距離をエッジとして、CLIPのリッチなセマンティック関係を明示的に継承するKGを構築するためにCLIPを使用するKG抽出。
2) 抽出したKGをLVDに変換して正確なクロスドメインオブジェクト分類を可能にするKGカプセル化。
さらに、kgdは視覚とテキストの両方のkgを独立に抽出でき、様々な下流領域における検出タスクにおいて、オブジェクトのローカライゼーションとオブジェクト分類のための補完的な視覚と言語知識を提供する。
複数の広く採用されている検出ベンチマークに対する実験により、KGDは最先端技術よりも大きなマージンで一貫して優れていることが示された。
関連論文リスト
- Toward Open Vocabulary Aerial Object Detection with CLIP-Activated
Student-Teacher Learning [14.35268391981271]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - Open-Vocabulary Camouflaged Object Segmentation [71.82644727907146]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入し,大規模複合シーンデータセット(textbfOVCamo)を構築した。
パラメータ固定CLIPに付加された強力な単一段開語彙下線下線下線下線下線下線下線下線下線を構築。
クラス意味知識の指導とエッジと奥行きからの視覚構造的手がかりの補足を統合する
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Learning Knowledge-Enhanced Contextual Language Representations for
Domain Natural Language Understanding [46.00400830499326]
我々は,様々なclosed dOmains(KANGAROO)のための知識強化型LANGuAge表現学習フレームワークを提案する。
実験では, 各種知識認識タスクおよび一般NLPタスクに対して, フルおよび少数ショットの学習環境において, カンガロオの評価を行った。
論文 参考訳(メタデータ) (2023-11-12T07:37:24Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Link-Intensive Alignment for Incomplete Knowledge Graphs [28.213397255810936]
本研究では,不完全KGと表現学習の整合性の問題に対処する。
我々のフレームワークは、推移性に基づく2つの特徴チャネルと近接性に基づく2つの特徴チャネルを利用する。
2つの特徴チャネルは、入力KG間で重要な特徴を交換するために共同で学習される。
また,学習過程中に欠落したリンクを検出し,回復するリンク検出装置も開発した。
論文 参考訳(メタデータ) (2021-12-17T00:41:28Z) - Double-Dot Network for Antipodal Grasp Detection [20.21384585441404]
本稿では,Double-Dot Network (DD-Net) という,対足足歩行検出のための新しい深層学習手法を提案する。
これは、経験的にプリセットされたアンカーに依存しない最近のアンカーフリーなオブジェクト検出フレームワークに従っている。
このような指先をローカライズするために効果的なCNNアーキテクチャを導入し、改良のための補助センターの助けを借りて、把握候補を正確かつ堅牢に推測する。
論文 参考訳(メタデータ) (2021-08-03T14:21:17Z) - Boundary Knowledge Translation based Reference Semantic Segmentation [62.60078935335371]
視覚境界知識翻訳を行うための参照参照セグメンテーションネットワーク(Ref-Net)を導入する。
人間の認識機構にインスパイアされたRTMTMは、参照オブジェクトの特徴に基づいて、同じカテゴリオブジェクトをセグメント化するだけに考案されている。
Ref-Netは、数十の細かい注釈付きサンプルをガイダンスとして、完全に教師された6つのデータセットのメソッドと同等の結果を得る。
論文 参考訳(メタデータ) (2021-08-01T07:40:09Z) - BiDet: An Efficient Binarized Object Detector [96.19708396510894]
本稿では,効率的な物体検出のためのバイナライズニューラルネットワークのBiDetを提案する。
我々のBiDetは、冗長除去による物体検出にバイナリニューラルネットワークの表現能力を完全に活用している。
我々の手法は、最先端のバイナリニューラルネットワークを大きなマージンで上回る。
論文 参考訳(メタデータ) (2020-03-09T08:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。