論文の概要: WARM-CAT: : Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2602.23114v1
- Date: Thu, 26 Feb 2026 15:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.750428
- Title: WARM-CAT: : Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning
- Title(参考訳): WARM-CAT: : 合成ゼロショット学習のためのワームスタートテスト時間包括的知識蓄積
- Authors: Xudong Yan, Songhe Feng, Jiaxin Wang, Xin Su, Yi Jin,
- Abstract要約: 合成ゼロショット学習(CZSL)は、目に見えるものから学習した知識に基づいて、新しい属性オブジェクトの合成を認識することを目的としている。
本稿では,テスト時に多モードプロトタイプを更新するために,テキストと視覚の両方で包括的知識を蓄積する手法を提案する。
提案手法は,クローズドワールドとオープンワールドの両方の設定下で,4つのベンチマークデータセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 41.10398503450224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional Zero-Shot Learning (CZSL) aims to recognize novel attribute-object compositions based on the knowledge learned from seen ones. Existing methods suffer from performance degradation caused by the distribution shift of label space at test time, which stems from the inclusion of unseen compositions recombined from attributes and objects. To overcome the challenge, we propose a novel approach that accumulates comprehensive knowledge in both textual and visual modalities from unsupervised data to update multimodal prototypes at test time. Building on this, we further design an adaptive update weight to control the degree of prototype adjustment, enabling the model to flexibly adapt to distribution shift during testing. Moreover, a dynamic priority queue is introduced that stores high-confidence images to acquire visual prototypes from historical images for inference. Since the model tends to favor compositions already stored in the queue during testing, we warm-start the queue by initializing it with training images for visual prototypes of seen compositions and generating unseen visual prototypes using the mapping learned between seen and unseen textual prototypes. Considering the semantic consistency of multimodal knowledge, we align textual and visual prototypes by multimodal collaborative representation learning. To provide a more reliable evaluation for CZSL, we introduce a new benchmark dataset, C-Fashion, and refine the widely used but noisy MIT-States dataset. Extensive experiments indicate that our approach achieves state-of-the-art performance on four benchmark datasets under both closed-world and open-world settings. The source code and datasets are available at https://github.com/xud-yan/WARM-CAT .
- Abstract(参考訳): 合成ゼロショット学習(CZSL)は、目に見えるものから学習した知識に基づいて、新しい属性オブジェクトの合成を認識することを目的としている。
既存の手法は、属性やオブジェクトから再結合された未知の合成を含むことに起因する、テスト時のラベル空間の分布シフトに起因するパフォーマンス劣化に悩まされている。
この課題を克服するために、教師なしデータからテキストと視覚の両モードの包括的知識を蓄積し、テスト時にマルチモーダルプロトタイプを更新する手法を提案する。
これに基づいて、我々は、プロトタイプ調整の度合いを制御するために適応的な更新ウェイトを設計し、テスト中の分散シフトに柔軟に適応できるようにする。
さらに,高信頼画像を格納し,過去の画像から視覚的プロトタイプを取得する動的優先キューも導入された。
このモデルは、テスト中に既にキューに格納されているコンポジションを好む傾向があるため、見知らぬコンポジションのビジュアルプロトタイプのトレーニングイメージを初期化し、見つからないテキストプロトタイプと見つからないテキストプロトタイプのマッピングを用いて、見えないヴィジュアルプロトタイプを生成することで、キューを温め始める。
マルチモーダルな知識のセマンティックな一貫性を考えると、多モーダルな協調表現学習によってテキストと視覚のプロトタイプを整列させる。
CZSLの信頼性を高めるために、新しいベンチマークデータセットC-Fashionを導入し、広く使われているがノイズの多いMIT-Statesデータセットを洗練する。
大規模実験により, クローズドワールドとオープンワールドの両方の設定下で, 4つのベンチマークデータセットに対して, 最先端の性能を実現することが示唆された。
ソースコードとデータセットはhttps://github.com/xud-yan/WARM-CAT で公開されている。
関連論文リスト
- TOMCAT: Test-time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning [35.14123452166428]
合成ゼロショット学習は,目に見えるものから学習した知識に基づいて,新しい属性オブジェクトの合成を認識することを目的としている。
既存の手法は,テスト時のラベル空間の分布変化による性能劣化に悩まされる。
本稿では,テスト時に多モードプロトタイプを更新するために,テキストと視覚の両方で包括的知識を蓄積する手法を提案する。
論文 参考訳(メタデータ) (2025-10-23T03:20:29Z) - Dynamic Multimodal Prototype Learning in Vision-Language Models [44.84161970425967]
textbfProtoMMは、テスト期間中に視覚言語モデルに適応するためのマルチモーダルプロトタイプを構築する、トレーニング不要のフレームワークである。
プロトタイプをテキスト記述や視覚的粒子の離散分布と見なすことで、ProtoMMは総合的なプロトタイプ学習のためのマルチモーダルな特徴を組み合わせることができる。
論文 参考訳(メタデータ) (2025-07-04T15:31:47Z) - Cross-Modal Prototype Allocation: Unsupervised Slide Representation Learning via Patch-Text Contrast in Computational Pathology [10.811667603360041]
ProAlignは、クロスモーダルな教師なしスライド表現学習フレームワークである。
スライド画像全体に存在するプロトタイプタイプの記述テキストを生成するために,大規模言語モデル(LLM)を利用する。
本稿では、パッチとこれらのプロトタイプの類似性を利用して、教師なしスライド埋め込みを形成するパラメータフリーアテンションアグリゲーション戦略を提案する。
論文 参考訳(メタデータ) (2025-03-26T03:31:07Z) - Learning Visual Proxy for Compositional Zero-Shot Learning [18.38505448611429]
本稿では,モダリティギャップを減らし,構成一般化を強化する手法であるVisual Proxy Learningを紹介する。
また,テキストイメージときめ細かい視覚空間の相互制約を課すクロスモーダル・ジョイント・ラーニングを提案する。
実験では、クローズドワールドシナリオにおける最先端のパフォーマンスと、オープンワールド設定における競争結果が示されている。
論文 参考訳(メタデータ) (2025-01-23T17:30:27Z) - In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。