論文の概要: Language-conditioned Detection Transformer
- arxiv url: http://arxiv.org/abs/2311.17902v1
- Date: Wed, 29 Nov 2023 18:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:08:46.226489
- Title: Language-conditioned Detection Transformer
- Title(参考訳): 言語条件検出トランス
- Authors: Jang Hyun Cho, Philipp Kr\"ahenb\"uhl
- Abstract要約: 本フレームワークでは,画像レベルのラベルと詳細な検出アノテーションが利用可能である。
まず、完全に教師付き検出データに基づいて、言語条件のオブジェクト検出器を訓練する。
この検出器は、画像レベルのラベルを持つ擬似ラベル画像に使用される。
最後に、擬似注釈画像上に無条件の開語彙検出器を訓練する。
- 参考スコア(独自算出の注目度): 4.8951183832371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new open-vocabulary detection framework. Our framework uses both
image-level labels and detailed detection annotations when available. Our
framework proceeds in three steps. We first train a language-conditioned object
detector on fully-supervised detection data. This detector gets to see the
presence or absence of ground truth classes during training, and conditions
prediction on the set of present classes. We use this detector to pseudo-label
images with image-level labels. Our detector provides much more accurate
pseudo-labels than prior approaches with its conditioning mechanism. Finally,
we train an unconditioned open-vocabulary detector on the pseudo-annotated
images. The resulting detector, named DECOLA, shows strong zero-shot
performance in open-vocabulary LVIS benchmark as well as direct zero-shot
transfer benchmarks on LVIS, COCO, Object365, and OpenImages. DECOLA
outperforms the prior arts by 17.1 AP-rare and 9.4 mAP on zero-shot LVIS
benchmark. DECOLA achieves state-of-the-art results in various model sizes,
architectures, and datasets by only training on open-sourced data and
academic-scale computing. Code is available at
https://github.com/janghyuncho/DECOLA.
- Abstract(参考訳): 新たにオープン語彙検出フレームワークを提案する。
本フレームワークでは,画像レベルのラベルと詳細な検出アノテーションが利用可能である。
私たちの枠組みは3つのステップで進みます。
まず,完全教師付き検出データに基づいて言語条件付き物体検出器を訓練する。
この検出器は、トレーニング中に地上の真理クラスの存在または欠落を確認し、現在のクラスのセットに関する条件予測を行う。
画像レベルラベル付き擬似ラベル画像にこの検出器を用いる。
この検出器は、条件付け機構による従来のアプローチよりもはるかに正確な擬似ラベルを提供する。
最後に、擬似注釈画像上に無条件の開語彙検出器を訓練する。
DECOLAと名付けられたこの検出器は、オープン語彙のLVISベンチマークや、LVIS、COCO、Object365、OpenImagesの直接ゼロショット転送ベンチマークで強力なゼロショット性能を示している。
DECOLAは、ゼロショットLVISベンチマークで17.1 AP-rareと9.4 mAPで先行技術を上回っている。
DECOLAは、オープンソースのデータと学術規模のコンピューティングのみをトレーニングすることで、さまざまなモデルサイズ、アーキテクチャ、データセットの最先端の結果を達成する。
コードはhttps://github.com/janghyuncho/decolaで入手できる。
関連論文リスト
- Detection-Oriented Image-Text Pretraining for Open-Vocabulary Detection [44.03247177599605]
本稿では,検出指向画像テキスト事前学習に基づく新しいオープン語彙検出手法を提案する。
一般的なLVISオープン語彙検出ベンチマークでは、一般的なViT-Lバックボーンを用いて40.4マスクAP$_r$の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-09-29T21:56:37Z) - Augmenting Zero-Shot Detection Training with Image Labels [0.0]
ゼロショット検出(ZSD)は実世界のユースケースには不可欠であるが、依然として難しい課題である。
最近の研究では、直接クラスラベルの代わりに埋め込みを出力する検出モデルを用いてZSDを試みている。
我々は、イメージネットの画像ラベルと組み合わせてCLIP埋め込み空間を活用することで、この問題に対処する。
論文 参考訳(メタデータ) (2023-06-12T07:06:01Z) - Region-Aware Pretraining for Open-Vocabulary Object Detection with
Vision Transformers [44.03247177599605]
地域対応オープンボキャブラリビジョントランス(RO-ViT)
画像レベルの事前学習とオープン語彙オブジェクト検出のギャップを埋めるために、コントラスト的な画像テキスト事前学習のレシピを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:53:29Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Open-Vocabulary DETR with Conditional Matching [86.1530128487077]
OV-DETRは、DETRに基づくオープンボキャブラリ検出器である。
クラス名や模範画像が与えられた任意のオブジェクトを検出できる。
芸術の現在の状態よりも、ささいな改善を達成している。
論文 参考訳(メタデータ) (2022-03-22T16:54:52Z) - Detecting Twenty-thousand Classes using Image-level Supervision [40.948910656287865]
検出器の語彙を数万の概念に拡張するDeticを提案する。
以前の作業とは異なり、Deticはモデル予測に基づいてイメージラベルをボックスに割り当てていない。
初めて、ImageNetデータセットの21のクラスすべてで検出器をトレーニングします。
論文 参考訳(メタデータ) (2022-01-07T18:57:19Z) - Zero-Shot Detection via Vision and Language Knowledge Distillation [28.54818724798105]
視覚・言語知識蒸留によるトレーニング手法「ViLD」を提案します。
予め訓練したゼロショット画像分類モデルから知識を2段階検出器に抽出する。
本手法では,検出器内の領域埋め込みをテキストに調整し,事前学習したモデルにより推定した画像埋め込みを行う。
論文 参考訳(メタデータ) (2021-04-28T17:58:57Z) - DetCo: Unsupervised Contrastive Learning for Object Detection [64.22416613061888]
教師なしのコントラスト学習は,CNNを用いた画像表現学習において大きな成功を収めている。
我々は,グローバルイメージとローカルイメージパッチのコントラストをフルに検討する,DetCoという新しいコントラスト学習手法を提案する。
DetCoは1倍のスケジュールでMask RCNN-C4/FPN/RetinaNet上で1.6/1.2/1.0 APで教師付き手法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-02-09T12:47:20Z) - Self-Supervised Person Detection in 2D Range Data using a Calibrated
Camera [83.31666463259849]
2次元LiDARに基づく人検出器のトレーニングラベル(擬似ラベル)を自動生成する手法を提案する。
擬似ラベルで訓練または微調整された自己監視検出器が,手動アノテーションを用いて訓練された検出器を上回っていることを示した。
私達の方法は付加的な分類の努力なしで配置の間に人の探知器を改善する有効な方法です。
論文 参考訳(メタデータ) (2020-12-16T12:10:04Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。