論文の概要: GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning
- arxiv url: http://arxiv.org/abs/2303.09252v1
- Date: Thu, 16 Mar 2023 12:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:51:34.528464
- Title: GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning
- Title(参考訳): GridCLIP:グリッドレベルCLIP表現学習による一段階オブジェクト検出
- Authors: Jiayi Lin, Shaogang Gong
- Abstract要約: 一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
- 参考スコア(独自算出の注目度): 55.77244064907146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A vision-language foundation model pretrained on very large-scale image-text
paired data has the potential to provide generalizable knowledge representation
for downstream visual recognition and detection tasks, especially on
supplementing the undersampled categories in downstream model training. Recent
studies utilizing CLIP for object detection have shown that a two-stage
detector design typically outperforms a one-stage detector, while requiring
more expensive training resources and longer inference time. In this work, we
propose a one-stage detector GridCLIP that narrows its performance gap to those
of two-stage detectors, with approximately 43 and 5 times faster than its
two-stage counterpart (ViLD) in the training and test process respectively.
GridCLIP learns grid-level representations to adapt to the intrinsic principle
of one-stage detection learning by expanding the conventional CLIP image-text
holistic mapping to a more fine-grained, grid-text alignment. This differs from
the region-text mapping in two-stage detectors that apply CLIP directly by
treating regions as images. Specifically, GridCLIP performs Grid-level
Alignment to adapt the CLIP image-level representations to grid-level
representations by aligning to CLIP category representations to learn the
annotated (especially frequent) categories. To learn generalizable visual
representations of broader categories, especially undersampled ones, we perform
Image-level Alignment during training to propagate broad pre-learned categories
in the CLIP image encoder from the image-level to the grid-level
representations. Experiments show that the learned CLIP-based grid-level
representations boost the performance of undersampled (infrequent and novel)
categories, reaching comparable detection performance on the LVIS benchmark.
- Abstract(参考訳): 超大規模画像テキストペアデータに基づいて事前訓練された視覚言語基盤モデルは、下流の視覚認識および検出タスク、特に下流のモデルトレーニングにおけるアンサンプ付きカテゴリを補完する一般的な知識表現を提供する可能性がある。
物体検出にCLIPを利用する最近の研究は、2段検出器の設計が1段検出器よりも優れており、高いトレーニングリソースとより長い推論時間を必要とすることを示している。
本研究では,2段階検出器の性能差を2段階検出器の性能差に限定する1段階検出格子クリップを提案し,訓練および試験工程における2段階検出器(vild)の約43倍と5倍の速度で評価した。
GridCLIPはグリッドレベルの表現を学習し、従来のCLIP画像テキスト全体像マッピングをグリッドテキストアライメントに拡張することで、1段階検出学習の本質的な原則に適応する。
これは、CLIPを直接画像として扱う2段階検出器の領域テキストマッピングとは異なる。
具体的には、グリッドレベルのアライメントを実行して、CLIPイメージレベルの表現をグリッドレベルの表現に適応させ、CLIPカテゴリの表現と整列して、注釈付き(特に頻繁な)カテゴリを学習する。
画像レベルからグリッドレベルまでのCLIP画像エンコーダにおいて,より広いカテゴリ,特にアンサンプされたカテゴリの一般化可能な視覚表現を学習するために,トレーニング中に画像レベルアライメントを行い,より広範に事前学習されたカテゴリを伝播させる。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高め、LVISベンチマークで同等な検出性能に達した。
関連論文リスト
- CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
画像レベルのラベルを持つ弱教師付きセマンティックセグメンテーション(WSSS)は、コンピュータビジョンにおいて難しい課題である。
本稿では,コントラスト言語-画像事前学習モデル (CLIP) が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,WSSS用CLIP-ESという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - Semantic Guided Level-Category Hybrid Prediction Network for
Hierarchical Image Classification [8.456482280676884]
階層分類(HC)は、各オブジェクトに階層構造にまとめられた複数のラベルを割り当てる。
本稿では,そのレベルとカテゴリの予測をエンドツーエンドで共同で行うことのできる,セマンティックガイド付き階層型ハイブリッド予測ネットワーク(SGLCHPN)を提案する。
論文 参考訳(メタデータ) (2022-11-22T13:49:10Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Context-self contrastive pretraining for crop type semantic segmentation [65.32800740616835]
提案する文脈自己コントラスト損失(cscl)は、意味境界をポップアップさせる埋め込み空間を学習する。
衛星画像からの作物型セマンティックセマンティックセグメンテーションでは、パーセル境界における性能が重要なボトルネックとなる。
CSCLが課題の根本原因にどのように取り組むかを示し、その課題における最先端の性能を改善する。
論文 参考訳(メタデータ) (2021-04-09T11:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。