Fugu-MT 論文翻訳(概要): Interpretable Zero-shot Learning with Infinite Class Concepts

論文の概要: Interpretable Zero-shot Learning with Infinite Class Concepts

arxiv url: http://arxiv.org/abs/2505.03361v1
Date: Tue, 06 May 2025 09:30:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 18:50:11.30796
Title: Interpretable Zero-shot Learning with Infinite Class Concepts
Title（参考訳）: 無限クラス概念を用いた解釈可能なゼロショット学習
Authors: Zihan Ye, Shreyank N Gowda, Shiming Chen, Yaochu Jin, Kaizhu Huang, Xiaobo Jin,
Abstract要約: 本稿では,ゼロショット学習(ZSL)におけるクラスセマンティクスを再定義する。無限クラス概念を用いたゼロショット学習(InfZSL)という新しいフレームワークを導入する。
参考スコア（独自算出の注目度）: 34.74107784017915
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Zero-shot learning (ZSL) aims to recognize unseen classes by aligning images with intermediate class semantics, like human-annotated concepts or class definitions. An emerging alternative leverages Large-scale Language Models (LLMs) to automatically generate class documents. However, these methods often face challenges with transparency in the classification process and may suffer from the notorious hallucination problem in LLMs, resulting in non-visual class semantics. This paper redefines class semantics in ZSL with a focus on transferability and discriminability, introducing a novel framework called Zero-shot Learning with Infinite Class Concepts (InfZSL). Our approach leverages the powerful capabilities of LLMs to dynamically generate an unlimited array of phrase-level class concepts. To address the hallucination challenge, we introduce an entropy-based scoring process that incorporates a ``goodness" concept selection mechanism, ensuring that only the most transferable and discriminative concepts are selected. Our InfZSL framework not only demonstrates significant improvements on three popular benchmark datasets but also generates highly interpretable, image-grounded concepts. Code will be released upon acceptance.
Abstract（参考訳）: Zero-shot Learning (ZSL) は、画像と中間クラスのセマンティクスを整列させることによって、目に見えないクラスを認識することを目的としている。新たな代替手段として、LLM(Large-scale Language Models)を活用して、クラスドキュメントを自動的に生成する。しかしながら、これらの手法は分類過程における透明性の課題に直面することが多く、LLMの悪名高い幻覚問題に悩まされ、視覚的でないクラス意味論がもたらされる。本稿では,ZSLにおけるクラスセマンティクスを再定義し,移動可能性と識別性に着目し,ゼロショット学習(Zero-shot Learning with Infinite Class Concepts, InfZSL)という新しいフレームワークを導入する。提案手法は, LLMの強力な機能を活用し, フレーズレベルのクラス概念を動的に生成する。幻覚の課題に対処するために,「良さ」概念選択機構を取り入れたエントロピーに基づくスコアリングプロセスを導入する。我々のInfZSLフレームワークは、人気のある3つのベンチマークデータセットに対する大幅な改善を示すだけでなく、高度に解釈可能な画像グラウンドの概念を生成する。コードは受理時にリリースされる。

関連論文リスト

Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文参考訳（メタデータ） (2025-07-30T20:06:01Z)
Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and Scalability [54.420663939897686]
本稿では,解釈可能な画像認識を実現するために,Attribute-formed Language Bottleneck Model (ALBM)を提案する。 ALBMは属性形式クラス固有の空間において概念を整理する。解釈性をさらに向上するため,細粒度属性の視覚的特徴を抽出するVAPL(Visual Attribute Prompt Learning)を提案する。
論文参考訳（メタデータ） (2025-03-26T07:59:04Z)
Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文参考訳（メタデータ） (2024-12-23T02:18:54Z)
Data-Free Generalized Zero-Shot Learning [45.86614536578522]
データフリーゼロショット学習(DFZSL)のための汎用フレームワークを提案する。我々のフレームワークは、一般化ZSLの5つの一般的なベンチマークと、ベース・ツー・ニューZSLの11のベンチマークで評価されている。
論文参考訳（メタデータ） (2024-01-28T13:26:47Z)
Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-24T17:56:46Z)
Waffling around for Performance: Visual Classification with Random Words and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。 LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文参考訳（メタデータ） (2023-06-12T17:59:48Z)
Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。 MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文参考訳（メタデータ） (2023-05-23T18:00:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。