論文の概要: Injecting Image Details into CLIP's Feature Space
- arxiv url: http://arxiv.org/abs/2208.14649v1
- Date: Wed, 31 Aug 2022 06:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:28:16.352728
- Title: Injecting Image Details into CLIP's Feature Space
- Title(参考訳): CLIPの機能空間に画像詳細を注入する
- Authors: Zilun Zhang, Cuifeng Shen, Yuan Shen, Huixin Xiong, Xinyu Zhou
- Abstract要約: 本稿では,高解像度画像に対して単一の特徴表現を生成できる効率的なフレームワークを提案する。
このフレームワークでは、慎重に設計した画像パッチ法から抽出したCLIP機能に基づいて、機能融合モデルを訓練する。
実世界および合成データセット上のクラストリガークエリから画像を取得することで、我々のフレームワークを検証する。
- 参考スコア(独自算出の注目度): 29.450159407113155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although CLIP-like Visual Language Models provide a functional joint feature
space for image and text, due to the limitation of the CILP-like model's image
input size (e.g., 224), subtle details are lost in the feature representation
if we input high-resolution images (e.g., 2240). In this work, we introduce an
efficient framework that can produce a single feature representation for a
high-resolution image that injects image details and shares the same semantic
space as the original CLIP. In the framework, we train a feature fusing model
based on CLIP features extracted from a carefully designed image patch method
that can cover objects of any scale, weakly supervised by image-agnostic class
prompted queries. We validate our framework by retrieving images from class
prompted queries on the real world and synthetic datasets, showing significant
performance improvement on these tasks. Furthermore, to fully demonstrate our
framework's detail retrieval ability, we construct a CLEVR-like synthetic
dataset called CLVER-DS, which is fully annotated and has a controllable object
scale.
- Abstract(参考訳): CLIPライクなVisual Language Modelは、画像とテキストのための機能的なジョイント特徴空間を提供するが、CILPライクなモデルのイメージ入力サイズ(例:224)の制限により、高解像度画像(例:2240)を入力すると、特徴表現に微妙な詳細が失われる。
本研究では,画像の詳細を注入し,元のCLIPと同じ意味空間を共有する高解像度画像に対して,単一の特徴表現を生成できる効率的なフレームワークを提案する。
このフレームワークでは,任意のスケールのオブジェクトをカバーできる慎重に設計されたイメージパッチ法から抽出したCLIP機能に基づいて,機能融合モデルを訓練する。
実世界および合成データセット上でのクラストリガークエリから画像を取得することで,我々のフレームワークを検証し,これらのタスクの大幅な性能向上を示す。
さらに,我々のフレームワークの詳細な検索能力を十分に実証するために,CLVER-DSと呼ばれるCLEVRに似た合成データセットを構築した。
関連論文リスト
- DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks [31.850184662606562]
DetailCLIP(Detail-Oriented CLIP)を導入し、対照的な学習に基づく視覚言語モデルの限界に対処する。
DetailCLIPは,既存のCLIPベースおよび従来の自己教師付き学習(SSL)モデルを上回るセグメンテーション精度を示し,多様なデータセットにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2024-09-10T18:27:36Z) - Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。
SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。
提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-07-24T03:45:35Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Interpreting CLIP's Image Representation via Text-Based Decomposition [73.54377859089801]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - Zero-Shot Visual Classification with Guided Cropping [9.321383320998262]
対象物に対するゼロショット分類器の焦点を増大させるため,既処理段階におけるオフザシェルフゼロショットオブジェクト検出モデルを提案する。
提案手法はアーキテクチャやデータセット間のゼロショット分類を改良し,小型オブジェクトに好適に適用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-12T20:09:12Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-04T08:50:09Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。