論文の概要: Learning Visual Proxy for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2501.13859v2
- Date: Wed, 12 Mar 2025 05:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 22:49:44.910172
- Title: Learning Visual Proxy for Compositional Zero-Shot Learning
- Title(参考訳): 合成ゼロショット学習のための視覚的プロキシの学習
- Authors: Shiyu Zhang, Cheng Yan, Yang Liu, Chenchen Jing, Lei Zhou, Wenjun Wang,
- Abstract要約: 視覚分布の学習を容易にする新しいアプローチである視覚プロキシラーニングを紹介する。
本稿では,原文画像空間と細粒度視覚空間との相互制約を課す効果的なクロスモーダル・ジョイント・ラーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 15.183106475115583
- License:
- Abstract: Compositional Zero-Shot Learning (CZSL) aims to recognize novel attribute-object compositions by leveraging knowledge from seen compositions. Existing methods align textual prototypes with visual features through Vision-Language Models (VLMs), but they face two key limitations: (1) modality gaps hinder the discrimination of semantically similar composition pairs, and (2) single-modal textual prototypes lack fine-grained visual cues, creating bottlenecks in VLM-based CZSL. In this paper, we introduce Visual Proxy Learning, a novel approach that facilitates the learning of distinct visual distributions, effectively reducing the modality gap and improving compositional generalization performance. Specifically, we initialize visual proxies for various attributes, objects, and their compositions using text representations. By optimizing the visual space, we capture fine-grained visual cues and guide the learning of more discriminative visual representations for attributes, objects and compositions. Furthermore, we propose an effective Cross-Modal Joint Learning (CMJL) strategy that imposes cross-modal constraints between the original text-image space and the fine-grained visual space. This approach not only boosts generalization for previously unseen composition pairs but also sharpens the discrimination of similar pairs, fostering more robust and precise learning. Extensive experiments demonstrate state-of-the-art performance in closed-world scenarios and competitive open-world results across four established CZSL benchmarks, validating the effectiveness of our approach in advancing compositional generalization.
- Abstract(参考訳): 合成ゼロショット学習(CZSL)は,新たな属性オブジェクト合成の認識を目的とした学習手法である。
既存の手法では、テキストプロトタイプと視覚的特徴をVLM(Vision-Language Models)を通して一致させるが、(1)モダリティギャップは意味論的に類似した合成ペアの識別を妨げ、(2)単一モーダルテキストプロトタイプは細かい視覚的手がかりを欠き、VLMベースのCZSLのボトルネックを生じさせる。
本稿では,視覚分布の学習を容易にし,モダリティのギャップを効果的に減らし,構成一般化性能を向上させる新しい手法である視覚プロキシ学習を紹介する。
具体的には、テキスト表現を用いて、様々な属性、オブジェクト、およびそれらの構成に対する視覚的プロキシを初期化する。
視覚空間を最適化することにより、細粒度の視覚的手がかりを捉え、属性、オブジェクト、コンポジションに対するより差別的な視覚的表現の学習を導く。
さらに,従来のテキスト画像空間ときめ細かな視覚空間との相互制約を課す効果的なクロスモーダル・ジョイント・ラーニング(CMJL)戦略を提案する。
このアプローチは、以前は目に見えない合成ペアの一般化を促進させるだけでなく、類似したペアの識別を強化し、より堅牢で正確な学習を促進する。
大規模実験により,CZSLの4つのベンチマークにおいて,クローズドワールドシナリオにおける最先端性能と競合するオープンワールド結果が実証され,構成一般化の進展における我々のアプローチの有効性が検証された。
関連論文リスト
- Learning Clustering-based Prototypes for Compositional Zero-shot Learning [56.57299428499455]
ClusProは、コンポジションゼロショット学習のための堅牢なクラスタリングベースのプロトタイプマイニングフレームワークである。
それは、多様化されたプロトタイプの集合を通じて、プリミティブの概念的境界を定義する。
ClusProは、学習可能なパラメータを追加することなく、非パラメトリックな方法でプロトタイプクラスタリングを効率的に実行する。
論文 参考訳(メタデータ) (2025-02-10T14:20:01Z) - Duplex: Dual Prototype Learning for Compositional Zero-Shot Learning [17.013498508426398]
合成ゼロショット学習(CZSL)は、学習中に欠落した視覚状態や物体の新たな構成をモデルが認識できるようにすることを目的としている。
そこで我々はDuplexを提案する。Duplexは、セマンティックとビジュアルのプロトタイプを、慎重に設計されたデュアルブランチアーキテクチャを通して統合する新しいデュアルプロトタイプ学習手法である。
論文 参考訳(メタデータ) (2025-01-13T08:04:32Z) - Toward Modality Gap: Vision Prototype Learning for Weakly-supervised Semantic Segmentation with CLIP [19.697857943845012]
本稿では,テキストプロトタイプの助けを借りて,視覚空間におけるクラス固有の視覚プロトタイプを学習するためのフレームワークを提案する。
また、対応するプロトタイプに埋め込まれた領域を対比する地域意味コントラストモジュールを提案する。
提案するフレームワークは,2つのベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-27T13:55:11Z) - Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。
我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。
本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文 参考訳(メタデータ) (2024-12-23T02:18:54Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Multi-Modal Prototypes for Open-World Semantic Segmentation [37.84805778548119]
セマンティックセグメンテーションをより包括的にサポートするために,テキストおよび視覚的手がかりを多モーダルプロトタイプとして包含することを提案する。
我々は,高レベル言語情報を多視点プロトタイプとして分解し,低レベル視覚情報をより意味のあるプロトタイプとして集約する。
弾性マスク予測モジュールに基づいて、ゼロショット、少数ショット、一般化されたタスクを1つのアーキテクチャで解くことができる。
論文 参考訳(メタデータ) (2023-07-05T03:27:31Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。