論文の概要: $S^3$: Synonymous Semantic Space for Improving Zero-Shot Generalization of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.04925v1
- Date: Fri, 06 Dec 2024 10:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:08.131773
- Title: $S^3$: Synonymous Semantic Space for Improving Zero-Shot Generalization of Vision-Language Models
- Title(参考訳): S^3$: 視覚言語モデルのゼロショット一般化を改善するための同期意味空間
- Authors: Xiaojie Yin, Qilong Wang, Bing Cao, Qinghua Hu,
- Abstract要約: 本稿では、各画像クラスに対してtextbfSynonymous textbfSemantic textbfSpace(S3$)を提案し、より安定したセマンティックアライメントを実現し、CLIPのゼロショット一般化を改善する。
実験は、きめ細かいゼロショット分類、自然分布ゼロショット分類、オープンボキャブラリセグメンテーションを含む17のベンチマークで実施された。
- 参考スコア(独自算出の注目度): 41.244610382963764
- License:
- Abstract: Recently, many studies have been conducted to enhance the zero-shot generalization ability of vision-language models (e.g., CLIP) by addressing the semantic misalignment between image and text embeddings in downstream tasks. Although many efforts have been made, existing methods barely consider the fact that a class of images can be described by notably different textual concepts due to well-known lexical variation in natural language processing, which heavily affects the zero-shot generalization of CLIP. Therefore, this paper proposes a \textbf{S}ynonymous \textbf{S}emantic \textbf{S}pace ($S^3$) for each image class, rather than relying on a single textual concept, achieving more stable semantic alignment and improving the zero-shot generalization of CLIP. Specifically, our $S^3$ method first generates several synonymous concepts based on the label of each class by using large language models, and constructs a continuous yet compact synonymous semantic space based on the Vietoris-Rips complex of the generated synonymous concepts. Furthermore, we explore the effect of several point-to-space metrics on our $S^3$, while presenting a point-to-local-center metric to compute similarity between image embeddings and the synonymous semantic space of each class, accomplishing effective zero-shot predictions. Extensive experiments are conducted across 17 benchmarks, including fine-grained zero-shot classification, natural distribution zero-shot classification, and open-vocabulary segmentation, and the results show that our $S^3$ outperforms state-of-the-art methods.
- Abstract(参考訳): 近年、下流タスクにおける画像とテキストの埋め込みのセマンティックなミスアライメントに対処することで、視覚言語モデルのゼロショット一般化能力(例えばCLIP)を高めるために多くの研究がなされている。
多くの取り組みがなされているが、既存の手法では、CLIPのゼロショット一般化に大きく影響する自然言語処理において、よく知られた語彙変化のために、ある画像のクラスが顕著に異なるテキスト概念によって記述できるという事実をほとんど考慮していない。
そこで本稿では,CLIPのより安定したセマンティックアライメントを実現し,ゼロショットの一般化を改善することを目的として,各画像クラスに対して \textbf{S}ynonymous \textbf{S}emantic \textbf{S}pace(S^3$)を提案する。
具体的には、S^3$法は、まず、大きな言語モデルを用いて各クラスのラベルに基づいて複数の同義語概念を生成し、生成した同義語概念のビエトリス・リップス複体に基づく連続的かつコンパクトな同義語意味空間を構築する。
さらに、画像埋め込みと各クラスの同義的な意味空間との類似性を計算し、効率的なゼロショット予測を実現するため、S^3$に対するいくつかの点対空間メトリクスの効果について検討する。
詳細なゼロショット分類、自然分布ゼロショット分類、オープンボキャブラリセグメンテーションを含む17のベンチマークで大規模な実験を行い、その結果、我々のS^3$は最先端の手法より優れていることを示した。
関連論文リスト
- Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Delving into Shape-aware Zero-shot Semantic Segmentation [18.51025849474123]
我々はtextbfshape-aware zero-shot semantic segmentation を提案する。
古典的スペクトル法に着想を得て,自己教師付き画素ワイド特徴を持つラプラシア行列の固有ベクトルを活用することを提案する。
提案手法は,PascalとCOCOの両方でゼロショットセマンティックセマンティックセグメンテーションのための最先端性能を新たに設定する。
論文 参考訳(メタデータ) (2023-04-17T17:59:46Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Semantically Grounded Visual Embeddings for Zero-Shot Learning [17.86691047421871]
本稿では,2ストリームネットワークを用いた共同画像とテキストモデルをプロキシタスクで計算することにより,意味的基盤とリッチな視覚情報を学習することを提案する。
ゼロショット学習のためのジョイント埋め込みと呼ばれる手法を,いくつかのベンチマークデータセットで評価した。
論文 参考訳(メタデータ) (2022-01-03T10:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。