論文の概要: Learning to Detect and Segment for Open Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2212.12130v3
- Date: Sat, 25 Mar 2023 02:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 01:01:49.632496
- Title: Learning to Detect and Segment for Open Vocabulary Object Detection
- Title(参考訳): オープン語彙オブジェクト検出のための検出とセグメントの学習
- Authors: Tao Wang
- Abstract要約: オープン語彙設定のためのボックス回帰とマスクセグメンテーションをより一般化する,原理的動的ネットワーク設計を提案する。
CondHeadは2つのネットワークヘッド、動的に集約されたヘッドと動的に生成されたヘッドで構成されている。
提案手法は,非常に少ないオーバーヘッドで,最先端のオープン語彙オブジェクト検出手法に大幅な改善をもたらす。
- 参考スコア(独自算出の注目度): 5.162878805724628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open vocabulary object detection has been greatly advanced by the recent
development of vision-language pretrained model, which helps recognize novel
objects with only semantic categories. The prior works mainly focus on
knowledge transferring to the object proposal classification and employ
class-agnostic box and mask prediction. In this work, we propose CondHead, a
principled dynamic network design to better generalize the box regression and
mask segmentation for open vocabulary setting. The core idea is to
conditionally parameterize the network heads on semantic embedding and thus the
model is guided with class-specific knowledge to better detect novel
categories. Specifically, CondHead is composed of two streams of network heads,
the dynamically aggregated head and the dynamically generated head. The former
is instantiated with a set of static heads that are conditionally aggregated,
these heads are optimized as experts and are expected to learn sophisticated
prediction. The latter is instantiated with dynamically generated parameters
and encodes general class-specific information. With such a conditional design,
the detection model is bridged by the semantic embedding to offer strongly
generalizable class-wise box and mask prediction. Our method brings significant
improvement to the state-of-the-art open vocabulary object detection methods
with very minor overhead, e.g., it surpasses a RegionClip model by 3.0
detection AP on novel categories, with only 1.1% more computation.
- Abstract(参考訳): オープンボキャブラリのオブジェクト検出は,最近開発された視覚言語事前学習モデルによって,意味カテゴリーのみを持つ新規なオブジェクトの認識を支援することで,大きく進歩している。
先行研究は、主にオブジェクト提案分類への知識伝達に焦点をあて、クラスに依存しないボックスとマスク予測を採用する。
本研究では,オープン語彙設定のためのボックス回帰とマスクセグメンテーションをより一般化する,原理的動的ネットワーク設計であるCondHeadを提案する。
中心となる考え方は、セマンティック埋め込みに基づいてネットワークヘッドを条件付きパラメータ化することで、新しいカテゴリをよりよく検出するために、クラス固有の知識でモデルが導かれることである。
特に、condheadは、動的に集約されたヘッドと動的に生成されたヘッドの2つのネットワークヘッドからなる。
前者は条件付き集約された静的なヘッドでインスタンス化され、これらのヘッドはエキスパートとして最適化され、洗練された予測を学ぶことが期待されている。
後者は動的に生成されたパラメータでインスタンス化し、一般的なクラス固有の情報をエンコードする。
このような条件付き設計により、検出モデルは意味埋め込みによって橋渡しされ、強い一般化可能なクラスワイズボックスとマスク予測を提供する。
提案手法は,最先端のオープンボキャブラリオブジェクト検出手法に非常に小さなオーバーヘッドで大幅な改善をもたらす。例えば,新しいカテゴリのAPを3.0で検出し,計算量はわずか1.1%に留まる。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection [31.464227593768324]
本稿ではセマンティック階層Nexus(SHiNe)について紹介する。
SHiNeは様々な語彙の粒度をまたいだ堅牢性を高め、+31.9%のmAP50と基底的真理階層を達成している。
SHiNeは無訓練で、市販のOvOD検出器とシームレスに統合できる。
論文 参考訳(メタデータ) (2024-05-16T12:42:06Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - Meta-ZSDETR: Zero-shot DETR with Meta-learning [29.58827207505671]
本稿では,DeTRとメタラーニングを組み合わせてゼロショットオブジェクト検出を行うMeta-ZSDETRを提案する。
このモデルは、回帰ヘッドを含むメタコントラスト学習で最適化され、クラス固有のボックスの座標を生成する。
実験の結果,本手法は既存のZSD法よりも高い性能を示した。
論文 参考訳(メタデータ) (2023-08-18T13:17:07Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Unified Object Counting Network with Object Occupation Prior [32.32999623924954]
既存のオブジェクトカウントタスクは、単一のオブジェクトクラス用に設計されている。
現実の世界で新しいクラスで新しいデータに遭遇するのは避けられない。
我々は、最初の進化するオブジェクトカウントデータセットを構築し、統一されたオブジェクトカウントネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-29T06:42:51Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Localized Vision-Language Matching for Open-vocabulary Object Detection [41.98293277826196]
本稿では,新しいオブジェクトクラスと既知のクラスを同時に検出することを学ぶオープンワールドオブジェクト検出手法を提案する。
これは2段階の訓練手法であり、まず位置誘導画像キャプチャマッチング技術を用いてクラスラベルを学習する。
単純な言語モデルは、新しいオブジェクトを検出するための大きな文脈化言語モデルよりも適していることを示す。
論文 参考訳(メタデータ) (2022-05-12T15:34:37Z) - Mixed Supervised Object Detection by Transferring Mask Prior and
Semantic Similarity [22.706462533761986]
我々は、弱いアノテーションを用いて新しいオブジェクトカテゴリを学習する、複合的な監視によるオブジェクト検出について考察する。
さらに、新しいカテゴリと基本カテゴリのギャップを埋めるために、マスクの先行と意味的類似性を転送する。
3つのベンチマークデータセットによる実験結果から,既存手法に対する提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-10-27T05:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。