論文の概要: GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning
- arxiv url: http://arxiv.org/abs/2303.09252v1
- Date: Thu, 16 Mar 2023 12:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:51:34.528464
- Title: GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning
- Title(参考訳): GridCLIP:グリッドレベルCLIP表現学習による一段階オブジェクト検出
- Authors: Jiayi Lin, Shaogang Gong
- Abstract要約: 一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
- 参考スコア(独自算出の注目度): 55.77244064907146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A vision-language foundation model pretrained on very large-scale image-text
paired data has the potential to provide generalizable knowledge representation
for downstream visual recognition and detection tasks, especially on
supplementing the undersampled categories in downstream model training. Recent
studies utilizing CLIP for object detection have shown that a two-stage
detector design typically outperforms a one-stage detector, while requiring
more expensive training resources and longer inference time. In this work, we
propose a one-stage detector GridCLIP that narrows its performance gap to those
of two-stage detectors, with approximately 43 and 5 times faster than its
two-stage counterpart (ViLD) in the training and test process respectively.
GridCLIP learns grid-level representations to adapt to the intrinsic principle
of one-stage detection learning by expanding the conventional CLIP image-text
holistic mapping to a more fine-grained, grid-text alignment. This differs from
the region-text mapping in two-stage detectors that apply CLIP directly by
treating regions as images. Specifically, GridCLIP performs Grid-level
Alignment to adapt the CLIP image-level representations to grid-level
representations by aligning to CLIP category representations to learn the
annotated (especially frequent) categories. To learn generalizable visual
representations of broader categories, especially undersampled ones, we perform
Image-level Alignment during training to propagate broad pre-learned categories
in the CLIP image encoder from the image-level to the grid-level
representations. Experiments show that the learned CLIP-based grid-level
representations boost the performance of undersampled (infrequent and novel)
categories, reaching comparable detection performance on the LVIS benchmark.
- Abstract(参考訳): 超大規模画像テキストペアデータに基づいて事前訓練された視覚言語基盤モデルは、下流の視覚認識および検出タスク、特に下流のモデルトレーニングにおけるアンサンプ付きカテゴリを補完する一般的な知識表現を提供する可能性がある。
物体検出にCLIPを利用する最近の研究は、2段検出器の設計が1段検出器よりも優れており、高いトレーニングリソースとより長い推論時間を必要とすることを示している。
本研究では,2段階検出器の性能差を2段階検出器の性能差に限定する1段階検出格子クリップを提案し,訓練および試験工程における2段階検出器(vild)の約43倍と5倍の速度で評価した。
GridCLIPはグリッドレベルの表現を学習し、従来のCLIP画像テキスト全体像マッピングをグリッドテキストアライメントに拡張することで、1段階検出学習の本質的な原則に適応する。
これは、CLIPを直接画像として扱う2段階検出器の領域テキストマッピングとは異なる。
具体的には、グリッドレベルのアライメントを実行して、CLIPイメージレベルの表現をグリッドレベルの表現に適応させ、CLIPカテゴリの表現と整列して、注釈付き(特に頻繁な)カテゴリを学習する。
画像レベルからグリッドレベルまでのCLIP画像エンコーダにおいて,より広いカテゴリ,特にアンサンプされたカテゴリの一般化可能な視覚表現を学習するために,トレーニング中に画像レベルアライメントを行い,より広範に事前学習されたカテゴリを伝播させる。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高め、LVISベンチマークで同等な検出性能に達した。
関連論文リスト
- C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection [98.34703790782254]
本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。
提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
論文 参考訳(メタデータ) (2024-08-19T02:14:25Z) - CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation [44.450243388665776]
我々はCLIP-VISと呼ばれる単純なエンコーダデコーダネットワークを提案し、CLIPをオープン語彙ビデオインスタンスセグメンテーションに適用する。
私たちのCLIP-VISは、凍結したCLIPを採用し、クラスに依存しないマスク生成、時間的トップK強調マッチング、重み付きオープン語彙分類を含む3つのモジュールを導入している。
論文 参考訳(メタデータ) (2024-03-19T05:27:04Z) - Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic Segmentation [20.880942041889444]
画像からピクセルへのCLIPの適応性を改善する一段階アプローチであるSPT-SEGを提案する。
具体的には、スペクトルプロンプトチューニング(SPT)を導入し、CLIP視覚エンコーダの浅い層にスペクトルプロンプトを組み込む。
我々は、最先端のアプローチよりもメソッドが優れていることを実証し、すべてのクラスでうまく機能し、特に目に見えないクラスを扱うのに優れています。
論文 参考訳(メタデータ) (2023-12-20T04:27:13Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image
Classification [23.392746466420128]
アノテーションのないマルチラベル画像分類のためのCLIPに基づく教師なし学習手法を提案する。
我々は、強力なCLIPモデルを完全に活用し、グローバルローカルな画像-テキスト類似性アグリゲーションに基づくマルチラベル予測のためのCLIPの拡張手法を提案する。
提案手法は,MS-COCO,PASCAL VOC 2007,PASCAL VOC 2012,NASデータセット上で,最先端の教師なし手法より優れている。
論文 参考訳(メタデータ) (2023-07-31T13:12:02Z) - S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist
Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。
S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。
S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文 参考訳(メタデータ) (2023-05-23T14:18:11Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。