論文の概要: Injecting Image Details into CLIP's Feature Space
- arxiv url: http://arxiv.org/abs/2208.14649v1
- Date: Wed, 31 Aug 2022 06:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:28:16.352728
- Title: Injecting Image Details into CLIP's Feature Space
- Title(参考訳): CLIPの機能空間に画像詳細を注入する
- Authors: Zilun Zhang, Cuifeng Shen, Yuan Shen, Huixin Xiong, Xinyu Zhou
- Abstract要約: 本稿では,高解像度画像に対して単一の特徴表現を生成できる効率的なフレームワークを提案する。
このフレームワークでは、慎重に設計した画像パッチ法から抽出したCLIP機能に基づいて、機能融合モデルを訓練する。
実世界および合成データセット上のクラストリガークエリから画像を取得することで、我々のフレームワークを検証する。
- 参考スコア(独自算出の注目度): 29.450159407113155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although CLIP-like Visual Language Models provide a functional joint feature
space for image and text, due to the limitation of the CILP-like model's image
input size (e.g., 224), subtle details are lost in the feature representation
if we input high-resolution images (e.g., 2240). In this work, we introduce an
efficient framework that can produce a single feature representation for a
high-resolution image that injects image details and shares the same semantic
space as the original CLIP. In the framework, we train a feature fusing model
based on CLIP features extracted from a carefully designed image patch method
that can cover objects of any scale, weakly supervised by image-agnostic class
prompted queries. We validate our framework by retrieving images from class
prompted queries on the real world and synthetic datasets, showing significant
performance improvement on these tasks. Furthermore, to fully demonstrate our
framework's detail retrieval ability, we construct a CLEVR-like synthetic
dataset called CLVER-DS, which is fully annotated and has a controllable object
scale.
- Abstract(参考訳): CLIPライクなVisual Language Modelは、画像とテキストのための機能的なジョイント特徴空間を提供するが、CILPライクなモデルのイメージ入力サイズ(例:224)の制限により、高解像度画像(例:2240)を入力すると、特徴表現に微妙な詳細が失われる。
本研究では,画像の詳細を注入し,元のCLIPと同じ意味空間を共有する高解像度画像に対して,単一の特徴表現を生成できる効率的なフレームワークを提案する。
このフレームワークでは,任意のスケールのオブジェクトをカバーできる慎重に設計されたイメージパッチ法から抽出したCLIP機能に基づいて,機能融合モデルを訓練する。
実世界および合成データセット上でのクラストリガークエリから画像を取得することで,我々のフレームワークを検証し,これらのタスクの大幅な性能向上を示す。
さらに,我々のフレームワークの詳細な検索能力を十分に実証するために,CLVER-DSと呼ばれるCLEVRに似た合成データセットを構築した。
関連論文リスト
- FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation [16.864086165056698]
既存のオープン語彙アプローチでは、CLIPなどのビジョン言語モデルを活用して、大規模なビジョン言語データセットの事前トレーニングを通じて取得したリッチなセマンティック機能と視覚機能を整合させる。
本稿では,複数の大規模モデルを活用して,より細かい視覚的特徴と豊かな言語的特徴との整合性を高めることで問題を緩和することを提案する。
提案手法は,すべての主要な開語彙セグメンテーションベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T05:49:42Z) - DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks [31.850184662606562]
DetailCLIP(Detail-Oriented CLIP)を導入し、対照的な学習に基づく視覚言語モデルの限界に対処する。
DetailCLIPは,既存のCLIPベースおよび従来の自己教師付き学習(SSL)モデルを上回るセグメンテーション精度を示し,多様なデータセットにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2024-09-10T18:27:36Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Interpreting CLIP's Image Representation via Text-Based Decomposition [73.54377859089801]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - Zero-Shot Visual Classification with Guided Cropping [9.321383320998262]
対象物に対するゼロショット分類器の焦点を増大させるため,既処理段階におけるオフザシェルフゼロショットオブジェクト検出モデルを提案する。
提案手法はアーキテクチャやデータセット間のゼロショット分類を改良し,小型オブジェクトに好適に適用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-12T20:09:12Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。