論文の概要: Language-conditioned Detection Transformer
- arxiv url: http://arxiv.org/abs/2311.17902v1
- Date: Wed, 29 Nov 2023 18:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:08:46.226489
- Title: Language-conditioned Detection Transformer
- Title(参考訳): 言語条件検出トランス
- Authors: Jang Hyun Cho, Philipp Kr\"ahenb\"uhl
- Abstract要約: 本フレームワークでは,画像レベルのラベルと詳細な検出アノテーションが利用可能である。
まず、完全に教師付き検出データに基づいて、言語条件のオブジェクト検出器を訓練する。
この検出器は、画像レベルのラベルを持つ擬似ラベル画像に使用される。
最後に、擬似注釈画像上に無条件の開語彙検出器を訓練する。
- 参考スコア(独自算出の注目度): 4.8951183832371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new open-vocabulary detection framework. Our framework uses both
image-level labels and detailed detection annotations when available. Our
framework proceeds in three steps. We first train a language-conditioned object
detector on fully-supervised detection data. This detector gets to see the
presence or absence of ground truth classes during training, and conditions
prediction on the set of present classes. We use this detector to pseudo-label
images with image-level labels. Our detector provides much more accurate
pseudo-labels than prior approaches with its conditioning mechanism. Finally,
we train an unconditioned open-vocabulary detector on the pseudo-annotated
images. The resulting detector, named DECOLA, shows strong zero-shot
performance in open-vocabulary LVIS benchmark as well as direct zero-shot
transfer benchmarks on LVIS, COCO, Object365, and OpenImages. DECOLA
outperforms the prior arts by 17.1 AP-rare and 9.4 mAP on zero-shot LVIS
benchmark. DECOLA achieves state-of-the-art results in various model sizes,
architectures, and datasets by only training on open-sourced data and
academic-scale computing. Code is available at
https://github.com/janghyuncho/DECOLA.
- Abstract(参考訳): 新たにオープン語彙検出フレームワークを提案する。
本フレームワークでは,画像レベルのラベルと詳細な検出アノテーションが利用可能である。
私たちの枠組みは3つのステップで進みます。
まず,完全教師付き検出データに基づいて言語条件付き物体検出器を訓練する。
この検出器は、トレーニング中に地上の真理クラスの存在または欠落を確認し、現在のクラスのセットに関する条件予測を行う。
画像レベルラベル付き擬似ラベル画像にこの検出器を用いる。
この検出器は、条件付け機構による従来のアプローチよりもはるかに正確な擬似ラベルを提供する。
最後に、擬似注釈画像上に無条件の開語彙検出器を訓練する。
DECOLAと名付けられたこの検出器は、オープン語彙のLVISベンチマークや、LVIS、COCO、Object365、OpenImagesの直接ゼロショット転送ベンチマークで強力なゼロショット性能を示している。
DECOLAは、ゼロショットLVISベンチマークで17.1 AP-rareと9.4 mAPで先行技術を上回っている。
DECOLAは、オープンソースのデータと学術規模のコンピューティングのみをトレーニングすることで、さまざまなモデルサイズ、アーキテクチャ、データセットの最先端の結果を達成する。
コードはhttps://github.com/janghyuncho/decolaで入手できる。
関連論文リスト
- Enhancing Remote Sensing Vision-Language Models for Zero-Shot Scene Classification [19.850063789903846]
リモートセンシングのためのビジョンランゲージモデルは、広範囲の事前トレーニングのおかげで有望な用途を示している。
提案手法は,テキストのプロンプトと親和関係のパッチによる初期予測を利用してこの問題に対処する。
最先端のVision-Language Modelを用いた10のリモートセンシングデータセットの実験では、大幅な精度向上が示されている。
論文 参考訳(メタデータ) (2024-09-01T11:39:13Z) - OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer [63.141027246418]
本稿では,OVLW-DETR(Open-Vocabulary Light-Weighted Detection Transformer)を提案する。
本稿では,視覚言語モデル(VLM)からオブジェクト検出器への知識伝達を簡易なアライメントで行うエンド・ツー・エンドのトレーニングレシピを提案する。
実験により,提案手法は標準ゼロショットLVISベンチマークにおいて,既存の実時間開語彙検出器よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-15T12:15:27Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Region-centric Image-Language Pretraining for Open-Vocabulary Detection [39.17829005627821]
領域中心の画像言語事前学習に基づく新しいオープン語彙検出手法を提案する。
プレトレーニング段階では,分類バックボーン上に検出器アーキテクチャを組み込む。
我々のアプローチは、創発的なオブジェクト・セマンティックな手がかりを学習するための、対照的な学習方法の単純かつ効果的な拡張である。
論文 参考訳(メタデータ) (2023-09-29T21:56:37Z) - Augmenting Zero-Shot Detection Training with Image Labels [0.0]
ゼロショット検出(ZSD)は実世界のユースケースには不可欠であるが、依然として難しい課題である。
最近の研究では、直接クラスラベルの代わりに埋め込みを出力する検出モデルを用いてZSDを試みている。
我々は、イメージネットの画像ラベルと組み合わせてCLIP埋め込み空間を活用することで、この問題に対処する。
論文 参考訳(メタデータ) (2023-06-12T07:06:01Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Detecting Twenty-thousand Classes using Image-level Supervision [40.948910656287865]
検出器の語彙を数万の概念に拡張するDeticを提案する。
以前の作業とは異なり、Deticはモデル予測に基づいてイメージラベルをボックスに割り当てていない。
初めて、ImageNetデータセットの21のクラスすべてで検出器をトレーニングします。
論文 参考訳(メタデータ) (2022-01-07T18:57:19Z) - Zero-Shot Detection via Vision and Language Knowledge Distillation [28.54818724798105]
視覚・言語知識蒸留によるトレーニング手法「ViLD」を提案します。
予め訓練したゼロショット画像分類モデルから知識を2段階検出器に抽出する。
本手法では,検出器内の領域埋め込みをテキストに調整し,事前学習したモデルにより推定した画像埋め込みを行う。
論文 参考訳(メタデータ) (2021-04-28T17:58:57Z) - Self-Supervised Person Detection in 2D Range Data using a Calibrated
Camera [83.31666463259849]
2次元LiDARに基づく人検出器のトレーニングラベル(擬似ラベル)を自動生成する手法を提案する。
擬似ラベルで訓練または微調整された自己監視検出器が,手動アノテーションを用いて訓練された検出器を上回っていることを示した。
私達の方法は付加的な分類の努力なしで配置の間に人の探知器を改善する有効な方法です。
論文 参考訳(メタデータ) (2020-12-16T12:10:04Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。