論文の概要: Open-Vocabulary Object Detection via Language Hierarchy
- arxiv url: http://arxiv.org/abs/2410.20371v1
- Date: Sun, 27 Oct 2024 08:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:46.051848
- Title: Open-Vocabulary Object Detection via Language Hierarchy
- Title(参考訳): 言語階層によるオープンボキャブラリオブジェクト検出
- Authors: Jiaxing Huang, Jingyi Zhang, Kai Jiang, Shijian Lu,
- Abstract要約: 我々はLHST(Language Hierarchical Self-Training)を設計し、弱教師付き検出器トレーニングに言語階層を導入する。
LHSTは、画像レベルのラベルを言語階層で拡張し、拡張されたラベルと自己学習の共正規化を可能にする。
提案手法は、14の広く研究されている対象検出データセットに対して、一貫して優れた一般化性能を実現する。
- 参考スコア(独自算出の注目度): 58.674088014474506
- License:
- Abstract: Recent studies on generalizable object detection have attracted increasing attention with additional weak supervision from large-scale datasets with image-level labels. However, weakly-supervised detection learning often suffers from image-to-box label mismatch, i.e., image-level labels do not convey precise object information. We design Language Hierarchical Self-training (LHST) that introduces language hierarchy into weakly-supervised detector training for learning more generalizable detectors. LHST expands the image-level labels with language hierarchy and enables co-regularization between the expanded labels and self-training. Specifically, the expanded labels regularize self-training by providing richer supervision and mitigating the image-to-box label mismatch, while self-training allows assessing and selecting the expanded labels according to the predicted reliability. In addition, we design language hierarchical prompt generation that introduces language hierarchy into prompt generation which helps bridge the vocabulary gaps between training and testing. Extensive experiments show that the proposed techniques achieve superior generalization performance consistently across 14 widely studied object detection datasets.
- Abstract(参考訳): 近年、画像レベルのラベルを持つ大規模データセットから、より弱い監視を行うとともに、一般化可能な物体検出に関する最近の研究が注目されている。
しかし、弱い教師付き検出学習はイメージ・ツー・ボックス・ラベルのミスマッチに悩まされることが多く、画像レベルのラベルは正確な対象情報を伝達しない。
我々はLHST(Language Hierarchical Self-training)を設計し、言語階層を弱教師付き検出器訓練に導入し、より一般化可能な検出器を学習する。
LHSTは、画像レベルのラベルを言語階層で拡張し、拡張されたラベルと自己学習の共正規化を可能にする。
具体的には、拡張ラベルは、画像間ラベルミスマッチを緩和し、よりリッチな監視を提供することにより、自己学習を規則化し、一方、自己学習は、予測された信頼性に応じて拡張ラベルを評価し、選択することができる。
さらに,学習とテストの語彙的ギャップを埋めるために,言語階層をプロンプト生成に導入する言語階層的プロンプト生成を設計する。
広範囲な実験により,提案手法は14の広範に研究されている対象検出データセットに対して連続的に優れた一般化性能が得られることが示された。
関連論文リスト
- DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Text as Image: Learning Transferable Adapter for Multi-Label
Classification [13.11583340598517]
マルチラベル命令追従テキスト生成に大規模言語モデルを用いるための効果的なアプローチを提案する。
このように、ビジュアルラベル認識のための完全に自動化されたパイプラインは、手動のデータに頼ることなく開発される。
論文 参考訳(メタデータ) (2023-12-07T09:22:20Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning [13.667326007851674]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Cross-Supervised Object Detection [42.783400918552765]
完全ラベル付きベースカテゴリから学習した知識を活用して、新しいカテゴリの弱いラベル付き画像からより良いオブジェクト検出器を構築する方法を示す。
本稿では,インスタンスレベルのアノテーションから学習した検出ヘッドと,画像レベルのアノテーションから学習した認識ヘッドを組み合わせた統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-26T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。