論文の概要: CLIM: Contrastive Language-Image Mosaic for Region Representation
- arxiv url: http://arxiv.org/abs/2312.11376v2
- Date: Tue, 19 Dec 2023 05:08:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 19:05:31.665153
- Title: CLIM: Contrastive Language-Image Mosaic for Region Representation
- Title(参考訳): CLIM: 地域表現のためのコントラスト言語画像モザイク
- Authors: Size Wu, Wenwei Zhang, Lumin Xu, Sheng Jin, Wentao Liu, Chen Change
Loy
- Abstract要約: Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
- 参考スコア(独自算出の注目度): 58.05870131126816
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Detecting objects accurately from a large or open vocabulary necessitates the
vision-language alignment on region representations. However, learning such a
region-text alignment by obtaining high-quality box annotations with text
labels or descriptions is expensive and infeasible. In contrast, collecting
image-text pairs is simpler but lacks precise object location information to
associate regions with texts. In this paper, we propose a novel approach called
Contrastive Language-Image Mosaic (CLIM), which leverages large-scale
image-text pairs effectively for aligning region and text representations. CLIM
combines multiple images into a mosaicked image and treats each image as a
`pseudo region'. The feature of each pseudo region is extracted and trained to
be similar to the corresponding text embedding while dissimilar from others by
a contrastive loss, enabling the model to learn the region-text alignment
without costly box annotations. As a generally applicable approach, CLIM
consistently improves different open-vocabulary object detection methods that
use caption supervision. Furthermore, CLIM can effectively enhance the region
representation of vision-language models, thus providing stronger backbones for
open-vocabulary object detectors. Our experimental results demonstrate that
CLIM improves different baseline open-vocabulary object detectors by a large
margin on both OV-COCO and OV-LVIS benchmarks. The code is available at
https://github.com/wusize/CLIM.
- Abstract(参考訳): 大語彙または開語彙から正確に物体を検出するには、領域表現の視覚言語アライメントが必要である。
しかし、テキストラベルや記述で高品質なボックスアノテーションを得ることで、このような地域テキストアライメントを学ぶことは高価で実現不可能である。
対照的に、画像テキストペアの収集は簡単であるが、領域とテキストを関連付ける正確なオブジェクト位置情報がない。
本稿では,大規模画像テキストペアを効果的に活用し,領域やテキスト表現の整合性を実現するContrastive Language- Image Mosaic(CLIM)を提案する。
CLIMは複数の画像をモザイク画像に結合し、各画像を「擬似領域」として扱う。
各疑似領域の特徴を抽出し、対照的な損失によって他と異なるテキスト埋め込みと類似するように訓練し、コストのかかるボックスアノテーションを伴わずに領域テキストアライメントを学習できるようにする。
一般に適用可能なアプローチとして、CLIMはキャプションインスペクションを使用する異なるオープン語彙オブジェクト検出方法を一貫して改善する。
さらに、CLIMは視覚言語モデルの領域表現を効果的に強化し、オープン語彙オブジェクト検出器のための強力なバックボーンを提供する。
実験結果から,CLIMはOV-COCOおよびOV-LVISベンチマークにおいて,異なるベースライン開語彙オブジェクト検出器を大きなマージンで改善することが示された。
コードはhttps://github.com/wusize/CLIMで公開されている。
関連論文リスト
- RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection [20.630629383286262]
オープン・ボキャブラリ・オブジェクト検出は、地域-セマンティック関係のソリッド・モデリングを必要とする。
拡張性のあるオープン語彙領域-テキストペアを生成するRTGenを提案する。
論文 参考訳(メタデータ) (2024-05-30T09:03:23Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary
Object Detection [78.0010542552784]
CoDetはオープン語彙オブジェクト検出のためのオブジェクトレベルの視覚言語表現を学習するための新しいアプローチである。
共有概念に言及するイメージをキャプションにグループ化することにより、共有概念に対応するオブジェクトは、高い共起性を示す。
CoDetは、オープン語彙検出において優れたパフォーマンスと魅力的なスケーラビリティを持っている。
論文 参考訳(メタデータ) (2023-10-25T14:31:02Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。