論文の概要: Learning Visual Proxy for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2501.13859v2
- Date: Wed, 12 Mar 2025 05:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 16:44:43.766636
- Title: Learning Visual Proxy for Compositional Zero-Shot Learning
- Title(参考訳): 合成ゼロショット学習のための視覚的プロキシの学習
- Authors: Shiyu Zhang, Cheng Yan, Yang Liu, Chenchen Jing, Lei Zhou, Wenjun Wang,
- Abstract要約: 視覚分布の学習を容易にする新しいアプローチである視覚プロキシラーニングを紹介する。
本稿では,原文画像空間と細粒度視覚空間との相互制約を課す効果的なクロスモーダル・ジョイント・ラーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 15.183106475115583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional Zero-Shot Learning (CZSL) aims to recognize novel attribute-object compositions by leveraging knowledge from seen compositions. Existing methods align textual prototypes with visual features through Vision-Language Models (VLMs), but they face two key limitations: (1) modality gaps hinder the discrimination of semantically similar composition pairs, and (2) single-modal textual prototypes lack fine-grained visual cues, creating bottlenecks in VLM-based CZSL. In this paper, we introduce Visual Proxy Learning, a novel approach that facilitates the learning of distinct visual distributions, effectively reducing the modality gap and improving compositional generalization performance. Specifically, we initialize visual proxies for various attributes, objects, and their compositions using text representations. By optimizing the visual space, we capture fine-grained visual cues and guide the learning of more discriminative visual representations for attributes, objects and compositions. Furthermore, we propose an effective Cross-Modal Joint Learning (CMJL) strategy that imposes cross-modal constraints between the original text-image space and the fine-grained visual space. This approach not only boosts generalization for previously unseen composition pairs but also sharpens the discrimination of similar pairs, fostering more robust and precise learning. Extensive experiments demonstrate state-of-the-art performance in closed-world scenarios and competitive open-world results across four established CZSL benchmarks, validating the effectiveness of our approach in advancing compositional generalization.
- Abstract(参考訳): 合成ゼロショット学習(CZSL)は,新たな属性オブジェクト合成の認識を目的とした学習手法である。
既存の手法では、テキストプロトタイプと視覚的特徴をVLM(Vision-Language Models)を通して一致させるが、(1)モダリティギャップは意味論的に類似した合成ペアの識別を妨げ、(2)単一モーダルテキストプロトタイプは細かい視覚的手がかりを欠き、VLMベースのCZSLのボトルネックを生じさせる。
本稿では,視覚分布の学習を容易にし,モダリティのギャップを効果的に減らし,構成一般化性能を向上させる新しい手法である視覚プロキシ学習を紹介する。
具体的には、テキスト表現を用いて、様々な属性、オブジェクト、およびそれらの構成に対する視覚的プロキシを初期化する。
視覚空間を最適化することにより、細粒度の視覚的手がかりを捉え、属性、オブジェクト、コンポジションに対するより差別的な視覚的表現の学習を導く。
さらに,従来のテキスト画像空間ときめ細かな視覚空間との相互制約を課す効果的なクロスモーダル・ジョイント・ラーニング(CMJL)戦略を提案する。
このアプローチは、以前は目に見えない合成ペアの一般化を促進させるだけでなく、類似したペアの識別を強化し、より堅牢で正確な学習を促進する。
大規模実験により,CZSLの4つのベンチマークにおいて,クローズドワールドシナリオにおける最先端性能と競合するオープンワールド結果が実証され,構成一般化の進展における我々のアプローチの有効性が検証された。
関連論文リスト
- Duplex: Dual Prototype Learning for Compositional Zero-Shot Learning [17.013498508426398]
合成ゼロショット学習(CZSL)は、学習中に欠落した視覚状態や物体の新たな構成をモデルが認識できるようにすることを目的としている。
そこで我々はDuplexを提案する。Duplexは、セマンティックとビジュアルのプロトタイプを、慎重に設計されたデュアルブランチアーキテクチャを通して統合する新しいデュアルプロトタイプ学習手法である。
論文 参考訳(メタデータ) (2025-01-13T08:04:32Z) - Toward Modality Gap: Vision Prototype Learning for Weakly-supervised Semantic Segmentation with CLIP [19.697857943845012]
本稿では,テキストプロトタイプの助けを借りて,視覚空間におけるクラス固有の視覚プロトタイプを学習するためのフレームワークを提案する。
また、対応するプロトタイプに埋め込まれた領域を対比する地域意味コントラストモジュールを提案する。
提案するフレームワークは,2つのベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-27T13:55:11Z) - Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。
我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。
本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文 参考訳(メタデータ) (2024-12-23T02:18:54Z) - Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Multi-Modal Prototypes for Open-World Semantic Segmentation [37.84805778548119]
セマンティックセグメンテーションをより包括的にサポートするために,テキストおよび視覚的手がかりを多モーダルプロトタイプとして包含することを提案する。
我々は,高レベル言語情報を多視点プロトタイプとして分解し,低レベル視覚情報をより意味のあるプロトタイプとして集約する。
弾性マスク予測モジュールに基づいて、ゼロショット、少数ショット、一般化されたタスクを1つのアーキテクチャで解くことができる。
論文 参考訳(メタデータ) (2023-07-05T03:27:31Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and
Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。
クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。
ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2021-08-16T13:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。