論文の概要: un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP
- arxiv url: http://arxiv.org/abs/2505.24517v1
- Date: Fri, 30 May 2025 12:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.941142
- Title: un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP
- Title(参考訳): un$2$CLIP: unCLIPの反転によるCLIPのビジュアル詳細キャプチャ機能の改善
- Authors: Yinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen,
- Abstract要約: コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。
この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
- 参考スコア(独自算出の注目度): 75.19266107565109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has become a foundation model and has been applied to various vision and multimodal tasks. However, recent works indicate that CLIP falls short in distinguishing detailed differences in images and shows suboptimal performance on dense-prediction and vision-centric multimodal tasks. Therefore, this work focuses on improving existing CLIP models, aiming to capture as many visual details in images as possible. We find that a specific type of generative models, unCLIP, provides a suitable framework for achieving our goal. Specifically, unCLIP trains an image generator conditioned on the CLIP image embedding. In other words, it inverts the CLIP image encoder. Compared to discriminative models like CLIP, generative models are better at capturing image details because they are trained to learn the data distribution of images. Additionally, the conditional input space of unCLIP aligns with CLIP's original image-text embedding space. Therefore, we propose to invert unCLIP (dubbed un$^2$CLIP) to improve the CLIP model. In this way, the improved image encoder can gain unCLIP's visual detail capturing ability while preserving its alignment with the original text encoder simultaneously. We evaluate our improved CLIP across various tasks to which CLIP has been applied, including the challenging MMVP-VLM benchmark, the dense-prediction open-vocabulary segmentation task, and multimodal large language model tasks. Experiments show that un$^2$CLIP significantly improves the original CLIP and previous CLIP improvement methods. Code and models will be available at https://github.com/LiYinqi/un2CLIP.
- Abstract(参考訳): コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。
しかし、最近の研究では、CLIPは画像の詳細な相違を区別するに足りず、密集した予測や視覚中心のマルチモーダルタスクにおける準最適性能を示すことが示されている。
したがって、この研究は既存のCLIPモデルの改善に焦点を当て、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
特定の生成モデルであるunCLIPが,目標達成に適したフレームワークであることがわかった。
具体的には、unCLIPはCLIPイメージ埋め込みに条件付きイメージジェネレータを訓練する。
言い換えれば、CLIPイメージエンコーダを反転させる。
CLIPのような識別モデルと比較すると、生成モデルは画像のデータ分布を学習するために訓練されているため、画像の詳細をキャプチャするのがよい。
さらに、unCLIPの条件入力空間は、CLIPのオリジナルの画像テキスト埋め込み空間と一致している。
そこで我々は,CLIPモデルを改善するために,unCLIP (dubed un^2$CLIP) を反転させることを提案する。
このようにして、改良された画像エンコーダは、元のテキストエンコーダとのアライメントを同時に保ちながら、unCLIPの視覚的ディテールキャプチャ能力を得ることができる。
改良されたCLIPは,MMVP-VLMベンチマーク,高密度な予測語彙分割タスク,マルチモーダルな言語モデルタスクなど,CLIPが適用されているさまざまなタスクにまたがって評価を行った。
実験の結果、un$2$CLIPは元のCLIPと以前のCLIPの改善方法を著しく改善している。
コードとモデルはhttps://github.com/LiYinqi/un2CLIPで入手できる。
関連論文リスト
- CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling [21.734200158914476]
コントラスト言語-画像事前学習(CLIP)はマルチモーダルインテリジェンスの基礎となっている。
最近の研究で、CLIPは機能空間の1つの側面しかエンコードできないことが判明した。
本稿では,一連の相補的なCLIPモデルを微調整し,それらをCLIP-MoEに変換する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-09-28T09:28:51Z) - Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。