論文の概要: TOMCAT: Test-time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2510.20162v1
- Date: Thu, 23 Oct 2025 03:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.229118
- Title: TOMCAT: Test-time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning
- Title(参考訳): TOMCAT: 合成ゼロショット学習のためのテスト時包括的知識蓄積
- Authors: Xudong Yan, Songhe Feng,
- Abstract要約: 合成ゼロショット学習は,目に見えるものから学習した知識に基づいて,新しい属性オブジェクトの合成を認識することを目的としている。
既存の手法は,テスト時のラベル空間の分布変化による性能劣化に悩まされる。
本稿では,テスト時に多モードプロトタイプを更新するために,テキストと視覚の両方で包括的知識を蓄積する手法を提案する。
- 参考スコア(独自算出の注目度): 35.14123452166428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional Zero-Shot Learning (CZSL) aims to recognize novel attribute-object compositions based on the knowledge learned from seen ones. Existing methods suffer from performance degradation caused by the distribution shift of label space at test time, which stems from the inclusion of unseen compositions recombined from attributes and objects. To overcome the challenge, we propose a novel approach that accumulates comprehensive knowledge in both textual and visual modalities from unsupervised data to update multimodal prototypes at test time. Building on this, we further design an adaptive update weight to control the degree of prototype adjustment, enabling the model to flexibly adapt to distribution shift during testing. Moreover, a dynamic priority queue is introduced that stores high-confidence images to acquire visual knowledge from historical images for inference. Considering the semantic consistency of multimodal knowledge, we align textual and visual prototypes by multimodal collaborative representation learning. Extensive experiments indicate that our approach achieves state-of-the-art performance on four benchmark datasets under both closed-world and open-world settings. Code will be available at https://github.com/xud-yan/TOMCAT .
- Abstract(参考訳): 合成ゼロショット学習(CZSL)は、目に見えるものから学習した知識に基づいて、新しい属性オブジェクトの合成を認識することを目的としている。
既存の手法は、属性やオブジェクトから再結合された未知の合成を含むことに起因する、テスト時のラベル空間の分布シフトに起因するパフォーマンス劣化に悩まされている。
この課題を克服するために、教師なしデータからテキストと視覚の両モードの包括的知識を蓄積し、テスト時にマルチモーダルプロトタイプを更新する手法を提案する。
これに基づいて、我々は、プロトタイプ調整の度合いを制御するために適応的な更新ウェイトを設計し、テスト中の分散シフトに柔軟に適応できるようにする。
さらに、高信頼画像を格納し、過去の画像から視覚的知識を取得して推論する動的優先度待ち行列を導入する。
マルチモーダルな知識のセマンティックな一貫性を考えると、多モーダルな協調表現学習によってテキストと視覚のプロトタイプを整列させる。
大規模実験により, クローズドワールドとオープンワールドの両方の設定下で, 4つのベンチマークデータセットに対して, 最先端の性能を実現することが示唆された。
コードはhttps://github.com/xud-yan/TOMCAT で入手できる。
関連論文リスト
- Cross-Modal Prototype Allocation: Unsupervised Slide Representation Learning via Patch-Text Contrast in Computational Pathology [10.811667603360041]
ProAlignは、クロスモーダルな教師なしスライド表現学習フレームワークである。
スライド画像全体に存在するプロトタイプタイプの記述テキストを生成するために,大規模言語モデル(LLM)を利用する。
本稿では、パッチとこれらのプロトタイプの類似性を利用して、教師なしスライド埋め込みを形成するパラメータフリーアテンションアグリゲーション戦略を提案する。
論文 参考訳(メタデータ) (2025-03-26T03:31:07Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder
with Semantic Concepts [0.9054540533394924]
近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。
画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。
提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-26T20:08:37Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。