論文の概要: Dual-Modal Prototype Joint Learning for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2501.13859v1
- Date: Thu, 23 Jan 2025 17:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:02.161043
- Title: Dual-Modal Prototype Joint Learning for Compositional Zero-Shot Learning
- Title(参考訳): 合成ゼロショット学習のためのデュアルモーダルプロトタイプ共同学習
- Authors: Shiyu Zhang, Cheng Yan, Yang Liu, Chenchen Jing, Lei Zhou, Wenjun Wang,
- Abstract要約: 合成ゼロショット学習 (CZSL) は, 属性や対象の新規な構成を認識することを目的として, 目に見える構成から学習した知識を活用する。
CZSLタスクのための新しいデュアルモーダルプロトタイプ共同学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.183106475115583
- License:
- Abstract: Compositional Zero-Shot Learning (CZSL) aims to recognize novel compositions of attributes and objects by leveraging knowledge learned from seen compositions. Recent approaches have explored the use of Vision-Language Models (VLMs) to align textual and visual modalities. These methods typically employ prompt engineering, parameter-tuning, and modality fusion to generate rich textual prototypes that serve as class prototypes for CZSL. However, the modality gap results in textual prototypes being unable to fully capture the optimal representations of all class prototypes, particularly those with fine-grained features, which can be directly obtained from the visual modality. In this paper, we propose a novel Dual-Modal Prototype Joint Learning framework for the CZSL task. Our approach, based on VLMs, introduces prototypes in both the textual and visual modalities. The textual prototype is optimized to capture broad conceptual information, aiding the model's generalization across unseen compositions. Meanwhile, the visual prototype is used to mitigate the classification errors caused by the modality gap and capture fine-grained details to distinguish images with similar appearances. To effectively optimize these prototypes, we design specialized decomposition modules and a joint learning strategy that enrich the features from both modalities. These prototypes not only capture key category information during training but also serve as crucial reference targets during inference. Experimental results demonstrate that our approach achieves state-of-the-art performance in the closed-world setting and competitive performance in the open-world setting across three publicly available CZSL benchmarks. These findings validate the effectiveness of our method in advancing compositional generalization.
- Abstract(参考訳): 合成ゼロショット学習 (CZSL) は, 属性や対象の新規な構成を認識することを目的として, 目に見える構成から学習した知識を活用する。
近年,視覚言語モデル (VLM) を用いてテキストと視覚のモダリティを整列させる手法が検討されている。
これらの手法は通常、CZSLのクラスプロトタイプとして機能するリッチテキストプロトタイプを生成するために、プロンプトエンジニアリング、パラメータチューニング、モダリティ融合を用いる。
しかし、モダリティのギャップは、すべてのクラスプロトタイプ、特に視覚的モダリティから直接得られる微細な特徴を持つプロトタイプの最適な表現を完全に捉えることができないテキストプロトタイプをもたらす。
本稿では,CZSLタスクのための新しいデュアルモーダルプロトタイプ共同学習フレームワークを提案する。
VLMをベースとした本手法では,テキストと視覚の両方にプロトタイプを導入する。
テキストプロトタイプは、広く概念的な情報をキャプチャするために最適化され、目に見えない構成をまたいだモデルの一般化を支援する。
一方、視覚プロトタイプは、モダリティギャップに起因する分類誤差を軽減し、きめ細かい細部をキャプチャして、類似した外観の画像を識別するために使用される。
これらのプロトタイプを効果的に最適化するために、特殊分解モジュールと、両モードの特徴を充実させる共同学習戦略を設計する。
これらのプロトタイプは、トレーニング中に重要なカテゴリ情報をキャプチャするだけでなく、推論時に重要なリファレンスターゲットとしても機能する。
実験により,3つのCZSLベンチマークを用いて,クローズドワールド設定における最先端性能とオープンワールド設定における競合性能を実証した。
これらの結果から, 合成一般化の進展における本手法の有効性が検証された。
関連論文リスト
- Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning [30.440574052935407]
既存の手法は視覚言語推論において3つの大きな課題に直面している。
ニューラル正規微分方程式を用いて視覚言語推論を改善する新しい手法NODE-Adapterを提案する。
提案手法が既存の最先端手法を著しく上回っていることを示すために, 少数ショットの分類, ドメインの一般化, 視覚的推論を対象とする実験結果を得た。
論文 参考訳(メタデータ) (2024-07-11T17:04:19Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Multi-Modal Prototypes for Open-World Semantic Segmentation [37.84805778548119]
セマンティックセグメンテーションをより包括的にサポートするために,テキストおよび視覚的手がかりを多モーダルプロトタイプとして包含することを提案する。
我々は,高レベル言語情報を多視点プロトタイプとして分解し,低レベル視覚情報をより意味のあるプロトタイプとして集約する。
弾性マスク予測モジュールに基づいて、ゼロショット、少数ショット、一般化されたタスクを1つのアーキテクチャで解くことができる。
論文 参考訳(メタデータ) (2023-07-05T03:27:31Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。