論文の概要: Interpretable Zero-shot Learning with Infinite Class Concepts
- arxiv url: http://arxiv.org/abs/2505.03361v1
- Date: Tue, 06 May 2025 09:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.30796
- Title: Interpretable Zero-shot Learning with Infinite Class Concepts
- Title(参考訳): 無限クラス概念を用いた解釈可能なゼロショット学習
- Authors: Zihan Ye, Shreyank N Gowda, Shiming Chen, Yaochu Jin, Kaizhu Huang, Xiaobo Jin,
- Abstract要約: 本稿では,ゼロショット学習(ZSL)におけるクラスセマンティクスを再定義する。
無限クラス概念を用いたゼロショット学習(InfZSL)という新しいフレームワークを導入する。
- 参考スコア(独自算出の注目度): 34.74107784017915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning (ZSL) aims to recognize unseen classes by aligning images with intermediate class semantics, like human-annotated concepts or class definitions. An emerging alternative leverages Large-scale Language Models (LLMs) to automatically generate class documents. However, these methods often face challenges with transparency in the classification process and may suffer from the notorious hallucination problem in LLMs, resulting in non-visual class semantics. This paper redefines class semantics in ZSL with a focus on transferability and discriminability, introducing a novel framework called Zero-shot Learning with Infinite Class Concepts (InfZSL). Our approach leverages the powerful capabilities of LLMs to dynamically generate an unlimited array of phrase-level class concepts. To address the hallucination challenge, we introduce an entropy-based scoring process that incorporates a ``goodness" concept selection mechanism, ensuring that only the most transferable and discriminative concepts are selected. Our InfZSL framework not only demonstrates significant improvements on three popular benchmark datasets but also generates highly interpretable, image-grounded concepts. Code will be released upon acceptance.
- Abstract(参考訳): Zero-shot Learning (ZSL) は、画像と中間クラスのセマンティクスを整列させることによって、目に見えないクラスを認識することを目的としている。
新たな代替手段として、LLM(Large-scale Language Models)を活用して、クラスドキュメントを自動的に生成する。
しかしながら、これらの手法は分類過程における透明性の課題に直面することが多く、LLMの悪名高い幻覚問題に悩まされ、視覚的でないクラス意味論がもたらされる。
本稿では,ZSLにおけるクラスセマンティクスを再定義し,移動可能性と識別性に着目し,ゼロショット学習(Zero-shot Learning with Infinite Class Concepts, InfZSL)という新しいフレームワークを導入する。
提案手法は, LLMの強力な機能を活用し, フレーズレベルのクラス概念を動的に生成する。
幻覚の課題に対処するために,「良さ」概念選択機構を取り入れたエントロピーに基づくスコアリングプロセスを導入する。
我々のInfZSLフレームワークは、人気のある3つのベンチマークデータセットに対する大幅な改善を示すだけでなく、高度に解釈可能な画像グラウンドの概念を生成する。
コードは受理時にリリースされる。
関連論文リスト
- Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and Scalability [54.420663939897686]
本稿では,解釈可能な画像認識を実現するために,Attribute-formed Language Bottleneck Model (ALBM)を提案する。
ALBMは属性形式クラス固有の空間において概念を整理する。
解釈性をさらに向上するため,細粒度属性の視覚的特徴を抽出するVAPL(Visual Attribute Prompt Learning)を提案する。
論文 参考訳(メタデータ) (2025-03-26T07:59:04Z) - Data-Free Generalized Zero-Shot Learning [45.86614536578522]
データフリーゼロショット学習(DFZSL)のための汎用フレームワークを提案する。
我々のフレームワークは、一般化ZSLの5つの一般的なベンチマークと、ベース・ツー・ニューZSLの11のベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-01-28T13:26:47Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。