論文の概要: RegionCLIP: Region-based Language-Image Pretraining
- arxiv url: http://arxiv.org/abs/2112.09106v1
- Date: Thu, 16 Dec 2021 18:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 13:43:59.876863
- Title: RegionCLIP: Region-based Language-Image Pretraining
- Title(参考訳): regionclip: リージョンベースの言語イメージ事前トレーニング
- Authors: Yiwu Zhong, Jianwei Yang, Pengchuan Zhang, Chunyuan Li, Noel Codella,
Liunian Harold Li, Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, Jianfeng Gao
- Abstract要約: 画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
- 参考スコア(独自算出の注目度): 94.29924084715316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive language-image pretraining (CLIP) using image-text pairs has
achieved impressive results on image classification in both zero-shot and
transfer learning settings. However, we show that directly applying such models
to recognize image regions for object detection leads to poor performance due
to a domain shift: CLIP was trained to match an image as a whole to a text
description, without capturing the fine-grained alignment between image regions
and text spans. To mitigate this issue, we propose a new method called
RegionCLIP that significantly extends CLIP to learn region-level visual
representations, thus enabling fine-grained alignment between image regions and
textual concepts. Our method leverages a CLIP model to match image regions with
template captions and then pretrains our model to align these region-text pairs
in the feature space. When transferring our pretrained model to the
open-vocabulary object detection tasks, our method significantly outperforms
the state of the art by 3.8 AP50 and 2.2 AP for novel categories on COCO and
LVIS datasets, respectively. Moreoever, the learned region representations
support zero-shot inference for object detection, showing promising results on
both COCO and LVIS datasets. Our code is available at
https://github.com/microsoft/RegionCLIP.
- Abstract(参考訳): 画像テキストペアを用いたCLIP(Contrastive Language-image Pretraining)は、ゼロショットおよびトランスファー学習設定の両方において、画像分類において印象的な結果を得た。
CLIPは、画像領域とテキストスパンの微妙なアライメントを捉えることなく、画像全体をテキスト記述に合わせるように訓練された。
そこで本研究では,CLIPを拡張して領域レベルの視覚表現を学習することで,画像領域とテキスト概念の微妙なアライメントを実現する領域CLIPを提案する。
提案手法では,CLIPモデルを用いてテンプレートキャプションと画像領域をマッチングし,これらの領域とテキストのペアを特徴空間内で整列させる。
事前学習したモデルをオープン語彙オブジェクト検出タスクに転送すると,COCOデータセットとLVISデータセットの新たなカテゴリに対して,それぞれ3.8 AP50と2.2 APの精度が大幅に向上する。
さらに、学習した領域表現はオブジェクト検出のためのゼロショット推論をサポートし、COCOとLVISデータセットの両方で有望な結果を示す。
私たちのコードはhttps://github.com/microsoft/RegionCLIPで利用可能です。
関連論文リスト
- Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense
Prediction [67.43527289422978]
そこで我々は,CLIPSelfというアプローチを提案し,CLIP ViTの画像レベルの認識能力を局所画像領域に適用する。
オープンボキャブラリオブジェクト検出,セマンティックセグメンテーション,パン光学セグメンテーションを,様々なベンチマークで実現した。
論文 参考訳(メタデータ) (2023-10-02T17:58:52Z) - Less is More: Removing Text-regions Improves CLIP Training Efficiency
and Robustness [19.77762574325687]
CLIP(Contrastive Language- Image Pre-training)モデルとその変種は、多くのアプリケーションにおいて事実上のバックボーンになりつつある。
CLIPトレーニングの効率性と堅牢性を改善するための2つの効果的なアプローチについて論じる。
私たちのフィルタベースのCLIPモデルでは、トップ1の精度は68.78%で、すべて50%未満の精度で過去のモデルより優れています。
論文 参考訳(メタデータ) (2023-05-08T23:47:07Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - RegionCL: Can Simple Region Swapping Contribute to Contrastive Learning? [76.16156833138038]
地域コントラスト学習(RegionCL)という,シンプルで効果的な前提文タスクを提案する。
具体的には、2つの異なる画像が与えられた場合、各画像から同じ大きさの領域をランダムに収穫し、それを交換して2つの新しい画像と左の領域を合成する。
RegionCLは、これらの豊富なペアを利用して、モデルをキャンバスとペーストの両方のビューと区別するのに役立つ。
論文 参考訳(メタデータ) (2021-11-24T07:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。