論文の概要: Three ways to improve feature alignment for open vocabulary detection
- arxiv url: http://arxiv.org/abs/2303.13518v1
- Date: Thu, 23 Mar 2023 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 12:46:39.544117
- Title: Three ways to improve feature alignment for open vocabulary detection
- Title(参考訳): 開語彙検出のための特徴アライメント改善のための3つの方法
- Authors: Relja Arandjelovi\'c, Alex Andonian, Arthur Mensch, Olivier J.
H\'enaff, Jean-Baptiste Alayrac, Andrew Zisserman
- Abstract要約: ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
- 参考スコア(独自算出の注目度): 88.65076922242184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The core problem in zero-shot open vocabulary detection is how to align
visual and text features, so that the detector performs well on unseen classes.
Previous approaches train the feature pyramid and detection head from scratch,
which breaks the vision-text feature alignment established during pretraining,
and struggles to prevent the language model from forgetting unseen classes.
We propose three methods to alleviate these issues. Firstly, a simple scheme
is used to augment the text embeddings which prevents overfitting to a small
number of classes seen during training, while simultaneously saving memory and
computation. Secondly, the feature pyramid network and the detection head are
modified to include trainable gated shortcuts, which encourages vision-text
feature alignment and guarantees it at the start of detection training.
Finally, a self-training approach is used to leverage a larger corpus of
image-text pairs thus improving detection performance on classes with no human
annotated bounding boxes.
Our three methods are evaluated on the zero-shot version of the LVIS
benchmark, each of them showing clear and significant benefits. Our final
network achieves the new stateof-the-art on the mAP-all metric and demonstrates
competitive performance for mAP-rare, as well as superior transfer to COCO and
Objects365.
- Abstract(参考訳): ゼロショットオープンボキャブラリ検出における中核的な問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、フィーチャーピラミッドと検出ヘッドをスクラッチからトレーニングし、事前トレーニング中に確立された視覚テキストの機能アライメントを壊し、言語モデルが目に見えないクラスを忘れないようにしている。
これらの問題を緩和する3つの方法を提案する。
まず、単純なスキームを使用してテキスト埋め込みを強化し、トレーニング中に見られる少数のクラスへの過剰フィットを防ぐと同時に、メモリと計算を同時に節約する。
第二に、特徴ピラミッドネットワークと検出ヘッドは、トレーニング可能なゲートショートカットを含むように変更され、視覚テキストの特徴アライメントが促進され、検出トレーニングの開始時にそれを保証する。
最後に、自己学習アプローチは、より大きな画像テキストペアコーパスを活用するために使用され、人間の注釈付きバウンディングボックスのないクラスにおける検出性能を向上させる。
LVISベンチマークのゼロショットバージョンでは,3つの手法が評価され,それぞれが明確かつ有意義な利点を示している。
我々の最終ネットワークは、mAP-allメトリックの新たな最先端を実現し、mAP-rareの競合性能とCOCOおよびObjects365への優れた転送性能を示す。
関連論文リスト
- Region-centric Image-Language Pretraining for Open-Vocabulary Detection [39.17829005627821]
領域中心の画像言語事前学習に基づく新しいオープン語彙検出手法を提案する。
プレトレーニング段階では,分類バックボーン上に検出器アーキテクチャを組み込む。
我々のアプローチは、創発的なオブジェクト・セマンティックな手がかりを学習するための、対照的な学習方法の単純かつ効果的な拡張である。
論文 参考訳(メタデータ) (2023-09-29T21:56:37Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Learning to Prompt for Open-Vocabulary Object Detection with
Vision-Language Model [34.85604521903056]
オープン語彙オブジェクト検出のための連続的なプロンプト表現を学習するための新しい手法である検出プロンプト(DetPro)を導入する。
私たちは最近の最先端のオープンワールドオブジェクト検出器であるViLDでDetProを組み立てます。
実験の結果、DetProはすべての設定でベースラインのViLDよりも優れています。
論文 参考訳(メタデータ) (2022-03-28T17:50:26Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Towards Open Vocabulary Object Detection without Human-provided Bounding
Boxes [74.24276505126932]
手動でバウンディングボックスアノテーションを指定せずにトレーニングできるオープンな語彙検出フレームワークを提案する。
本手法は,事前学習した視覚言語モデルの局所化能力を活用して実現した。
論文 参考訳(メタデータ) (2021-11-18T00:05:52Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z) - ReADS: A Rectified Attentional Double Supervised Network for Scene Text
Recognition [22.367624178280682]
一般的なシーンテキスト認識のためのRectified Attentional Double Supervised Network (ReADS) を精巧に設計する。
ReADSはエンドツーエンドでトレーニングすることができ、ワードレベルのアノテーションのみが必要とされる。
論文 参考訳(メタデータ) (2020-04-05T02:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。