論文の概要: UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding
- arxiv url: http://arxiv.org/abs/2401.06397v3
- Date: Tue, 29 Oct 2024 07:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:37:06.224593
- Title: UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding
- Title(参考訳): UMG-CLIP:オープンワールド理解のための統一多言語ビジョンジェネラリスト
- Authors: Bowen Shi, Peisen Zhao, Zichen Wang, Yuhang Zhang, Yaoming Wang, Jin Li, Wenrui Dai, Junni Zou, Hongkai Xiong, Qi Tian, Xiaopeng Zhang,
- Abstract要約: 本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 90.74967596080982
- License:
- Abstract: Vision-language foundation models, represented by Contrastive Language-Image Pre-training (CLIP), have gained increasing attention for jointly understanding both vision and textual tasks. However, existing approaches primarily focus on training models to match global image representations with textual descriptions, thereby overlooking the critical alignment between local regions and corresponding text tokens. This paper extends CLIP with multi-granularity alignment. Notably, we deliberately construct a new dataset comprising pseudo annotations at various levels of granularities, encompassing image-level, region-level as well as pixel-level captions and tags. Accordingly, we develop a Unified Multi-Granularity learning framework, termed UMG-CLIP, which simultaneously empowers the model with versatile perception abilities across different levels of detail. With parameter efficient tuning, UMG-CLIP surpasses current widely used CLIP variants and achieves state-of-the-art performance on diverse image understanding benchmarks, including open-world recognition, retrieval, semantic segmentation, and panoptic segmentation tasks. We believe that UMG-CLIP represents a valuable advancement in vision-language foundation models. The code is available at https://github.com/lygsbw/UMG-CLIP.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) で表現される視覚言語基盤モデルは、視覚とテキストの両方のタスクを共同で理解するために注目を集めている。
しかし、既存のアプローチは主に、グローバルな画像表現とテキスト記述とを一致させるトレーニングモデルに焦点を当てており、それによって、局所領域と対応するテキストトークンの臨界アライメントを見越すことになる。
本稿では,CLIPを多粒度アライメントで拡張する。
特に、画像レベル、領域レベル、およびピクセルレベルのキャプションとタグを含む様々な粒度の擬似アノテーションを含む新しいデータセットを意図的に構築する。
そこで我々はUMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超越し、オープンワールド認識、検索、セマンティックセグメンテーション、汎光学セグメンテーションタスクを含む様々な画像理解ベンチマークにおける最先端のパフォーマンスを達成する。
UMG-CLIPは視覚言語基盤モデルの貴重な進歩であると考えている。
コードはhttps://github.com/lygsbw/UMG-CLIPで公開されている。
関連論文リスト
- Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks [31.850184662606562]
DetailCLIP(Detail-Oriented CLIP)を導入し、対照的な学習に基づく視覚言語モデルの限界に対処する。
DetailCLIPは,既存のCLIPベースおよび従来の自己教師付き学習(SSL)モデルを上回るセグメンテーション精度を示し,多様なデータセットにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2024-09-10T18:27:36Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Alpha-CLIP: A CLIP Model Focusing on Wherever You Want [77.17294130370921]
コントラスト言語-画像事前学習(CLIP)は,多様なタスクにわたる画像から貴重なコンテンツ情報を抽出する上で重要な役割を担っている。
補助的なαチャネルを持つCLIPの強化版であるAlpha-CLIPを導入し、注意領域を提案するとともに、数百万のRGBA領域テキストペアを構築した微調整を行う。
オープンワールド認識、マルチモーダルな大言語モデル、条件付き2D/3D生成など、様々なタスクで有効性を示す。
論文 参考訳(メタデータ) (2023-12-06T18:59:30Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based
Domain Generalization [26.08922351077744]
StyLIPは、ドメイン間のCLIPの分類性能を高める、ドメインの一般化のための新しいアプローチである。
提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚的スタイルとコンテンツ情報を切り離すことを目的とした,ドメインに依存しないプロンプト学習戦略に焦点をあてる。
論文 参考訳(メタデータ) (2023-02-18T07:36:16Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。