論文の概要: Dual-Modal Prototype Joint Learning for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2501.13859v1
- Date: Thu, 23 Jan 2025 17:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:02.161043
- Title: Dual-Modal Prototype Joint Learning for Compositional Zero-Shot Learning
- Title(参考訳): 合成ゼロショット学習のためのデュアルモーダルプロトタイプ共同学習
- Authors: Shiyu Zhang, Cheng Yan, Yang Liu, Chenchen Jing, Lei Zhou, Wenjun Wang,
- Abstract要約: 合成ゼロショット学習 (CZSL) は, 属性や対象の新規な構成を認識することを目的として, 目に見える構成から学習した知識を活用する。
CZSLタスクのための新しいデュアルモーダルプロトタイプ共同学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.183106475115583
- License:
- Abstract: Compositional Zero-Shot Learning (CZSL) aims to recognize novel compositions of attributes and objects by leveraging knowledge learned from seen compositions. Recent approaches have explored the use of Vision-Language Models (VLMs) to align textual and visual modalities. These methods typically employ prompt engineering, parameter-tuning, and modality fusion to generate rich textual prototypes that serve as class prototypes for CZSL. However, the modality gap results in textual prototypes being unable to fully capture the optimal representations of all class prototypes, particularly those with fine-grained features, which can be directly obtained from the visual modality. In this paper, we propose a novel Dual-Modal Prototype Joint Learning framework for the CZSL task. Our approach, based on VLMs, introduces prototypes in both the textual and visual modalities. The textual prototype is optimized to capture broad conceptual information, aiding the model's generalization across unseen compositions. Meanwhile, the visual prototype is used to mitigate the classification errors caused by the modality gap and capture fine-grained details to distinguish images with similar appearances. To effectively optimize these prototypes, we design specialized decomposition modules and a joint learning strategy that enrich the features from both modalities. These prototypes not only capture key category information during training but also serve as crucial reference targets during inference. Experimental results demonstrate that our approach achieves state-of-the-art performance in the closed-world setting and competitive performance in the open-world setting across three publicly available CZSL benchmarks. These findings validate the effectiveness of our method in advancing compositional generalization.
- Abstract(参考訳): 合成ゼロショット学習 (CZSL) は, 属性や対象の新規な構成を認識することを目的として, 目に見える構成から学習した知識を活用する。
近年,視覚言語モデル (VLM) を用いてテキストと視覚のモダリティを整列させる手法が検討されている。
これらの手法は通常、CZSLのクラスプロトタイプとして機能するリッチテキストプロトタイプを生成するために、プロンプトエンジニアリング、パラメータチューニング、モダリティ融合を用いる。
しかし、モダリティのギャップは、すべてのクラスプロトタイプ、特に視覚的モダリティから直接得られる微細な特徴を持つプロトタイプの最適な表現を完全に捉えることができないテキストプロトタイプをもたらす。
本稿では,CZSLタスクのための新しいデュアルモーダルプロトタイプ共同学習フレームワークを提案する。
VLMをベースとした本手法では,テキストと視覚の両方にプロトタイプを導入する。
テキストプロトタイプは、広く概念的な情報をキャプチャするために最適化され、目に見えない構成をまたいだモデルの一般化を支援する。
一方、視覚プロトタイプは、モダリティギャップに起因する分類誤差を軽減し、きめ細かい細部をキャプチャして、類似した外観の画像を識別するために使用される。
これらのプロトタイプを効果的に最適化するために、特殊分解モジュールと、両モードの特徴を充実させる共同学習戦略を設計する。
これらのプロトタイプは、トレーニング中に重要なカテゴリ情報をキャプチャするだけでなく、推論時に重要なリファレンスターゲットとしても機能する。
実験により,3つのCZSLベンチマークを用いて,クローズドワールド設定における最先端性能とオープンワールド設定における競合性能を実証した。
これらの結果から, 合成一般化の進展における本手法の有効性が検証された。
関連論文リスト
- Learning Clustering-based Prototypes for Compositional Zero-shot Learning [56.57299428499455]
ClusProは、コンポジションゼロショット学習のための堅牢なクラスタリングベースのプロトタイプマイニングフレームワークである。
それは、多様化されたプロトタイプの集合を通じて、プリミティブの概念的境界を定義する。
ClusProは、学習可能なパラメータを追加することなく、非パラメトリックな方法でプロトタイプクラスタリングを効率的に実行する。
論文 参考訳(メタデータ) (2025-02-10T14:20:01Z) - Duplex: Dual Prototype Learning for Compositional Zero-Shot Learning [17.013498508426398]
合成ゼロショット学習(CZSL)は、学習中に欠落した視覚状態や物体の新たな構成をモデルが認識できるようにすることを目的としている。
そこで我々はDuplexを提案する。Duplexは、セマンティックとビジュアルのプロトタイプを、慎重に設計されたデュアルブランチアーキテクチャを通して統合する新しいデュアルプロトタイプ学習手法である。
論文 参考訳(メタデータ) (2025-01-13T08:04:32Z) - Toward Modality Gap: Vision Prototype Learning for Weakly-supervised Semantic Segmentation with CLIP [19.697857943845012]
本稿では,テキストプロトタイプの助けを借りて,視覚空間におけるクラス固有の視覚プロトタイプを学習するためのフレームワークを提案する。
また、対応するプロトタイプに埋め込まれた領域を対比する地域意味コントラストモジュールを提案する。
提案するフレームワークは,2つのベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-27T13:55:11Z) - Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。
我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。
本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文 参考訳(メタデータ) (2024-12-23T02:18:54Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Multi-Modal Prototypes for Open-World Semantic Segmentation [37.84805778548119]
セマンティックセグメンテーションをより包括的にサポートするために,テキストおよび視覚的手がかりを多モーダルプロトタイプとして包含することを提案する。
我々は,高レベル言語情報を多視点プロトタイプとして分解し,低レベル視覚情報をより意味のあるプロトタイプとして集約する。
弾性マスク予測モジュールに基づいて、ゼロショット、少数ショット、一般化されたタスクを1つのアーキテクチャで解くことができる。
論文 参考訳(メタデータ) (2023-07-05T03:27:31Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。