論文の概要: Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition
- arxiv url: http://arxiv.org/abs/2603.07911v1
- Date: Mon, 09 Mar 2026 03:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.389838
- Title: Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition
- Title(参考訳): ヒューリスティック・プロンプティングを超えて:ゼロショット画像認識のための概念誘導ベイズ的フレームワーク
- Authors: Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li,
- Abstract要約: VLM(Vision-Language Models)は、ゼロショット画像認識を著しく進歩させたモデルである。
本稿では、クラス固有の概念を取り入れることで、プロンプトを強化する。
我々の手法は一貫して最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 81.2779530670268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs), such as CLIP, have significantly advanced zero-shot image recognition. However, their performance remains limited by suboptimal prompt engineering and poor adaptability to target classes. While recent methods attempt to improve prompts through diverse class descriptions, they often rely on heuristic designs, lack versatility, and are vulnerable to outlier prompts. This paper enhances prompt by incorporating class-specific concepts. By treating concepts as latent variables, we rethink zero-shot image classification from a Bayesian perspective, casting prediction as marginalization over the concept space, where each concept is weighted by a prior and a test-image conditioned likelihood. This formulation underscores the importance of both a well-structured concept proposal distribution and the refinement of concept priors. To construct an expressive and efficient proposal distribution, we introduce a multi-stage concept synthesis pipeline driven by LLMs to generate discriminative and compositional concepts, followed by a Determinantal Point Process to enforce diversity. To mitigate the influence of outlier concepts, we propose a training-free, adaptive soft-trim likelihood, which attenuates their impact in a single forward pass. We further provide robustness guarantees and derive multi-class excess risk bounds for our framework. Extensive experiments demonstrate that our method consistently outperforms state-of-the-art approaches, validating its effectiveness in zero-shot image classification. Our code is available at https://github.com/less-and-less-bugs/CGBC.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、ゼロショット画像認識を大幅に進歩させた。
しかし、それらの性能は、準最適プロンプトエンジニアリングとターゲットクラスへの適応性の不足によって制限されている。
最近の手法は多様なクラス記述を通じてプロンプトを改善しようとするが、しばしばヒューリスティックな設計に頼り、汎用性が欠如し、より弱いプロンプトに弱い。
本稿では、クラス固有の概念を取り入れることで、プロンプトを強化する。
概念を潜伏変数として扱うことにより、ゼロショット画像分類をベイズ的視点から再考し、各概念が事前およびテストイメージ条件付き可能性によって重み付けられる概念空間上の余分化として、予測をキャストする。
この定式化は、十分に構造化された概念提案分布と、概念事前の洗練の両方の重要性を浮き彫りにしている。
表現的かつ効率的な提案分布を構築するために,LLMによって駆動される多段階の概念合成パイプラインを導入し,識別的および構成的概念を生成し,次に多様性を強制する決定的ポイントプロセスを提案する。
本研究では,外乱の概念の影響を軽減するために,トレーニング不要で適応的なソフトトリムの可能性を提案し,その影響を1回の前方通過で緩和する。
さらに、ロバスト性保証を提供し、フレームワークのマルチクラス過剰リスク境界を導出します。
広汎な実験により,本手法は常に最先端の手法より優れており,ゼロショット画像分類の有効性が検証されている。
私たちのコードはhttps://github.com/less-and-less-bugs/CGBCで利用可能です。
関連論文リスト
- Differential Vector Erasure: Unified Training-Free Concept Erasure for Flow Matching Models [49.10620605347065]
本研究では,フローマッチングモデルに特化して設計されたトレーニング不要な概念消去手法である差分ベクトル消去(DVE)を提案する。
我々の重要な洞察は、意味論的概念は生成フローを管理する速度場の方向構造に暗黙的に符号化されていることである。
推論中、DVEは速度場を微分方向に投影することで概念固有の成分を選択的に除去し、無関係な意味論に影響を与えることなく正確な概念抑圧を可能にする。
論文 参考訳(メタデータ) (2026-02-01T08:05:45Z) - FaCT: Faithful Concept Traces for Explaining Neural Network Decisions [56.796533084868884]
ディープネットワークは、幅広いタスクで顕著なパフォーマンスを示しているが、それらの機能に関するグローバルな概念レベルの理解は、依然として重要な課題である。
本稿では,概念に基づく説明の忠実さを強調し,モデル独立な機械的概念説明を用いた新しいモデルを提案する。
私たちの概念はクラス間で共有され、あらゆるレイヤから、ロジットへの貢献と入力-視覚化を忠実にトレースすることができます。
論文 参考訳(メタデータ) (2025-10-29T13:35:46Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and Scalability [54.420663939897686]
本稿では,解釈可能な画像認識を実現するために,Attribute-formed Language Bottleneck Model (ALBM)を提案する。
ALBMは属性形式クラス固有の空間において概念を整理する。
解釈性をさらに向上するため,細粒度属性の視覚的特徴を抽出するVAPL(Visual Attribute Prompt Learning)を提案する。
論文 参考訳(メタデータ) (2025-03-26T07:59:04Z) - Enhancing Zero-Shot Image Recognition in Vision-Language Models through Human-like Concept Guidance [41.6755826072905]
ゼロショット画像認識タスクでは、人間は目に見えないカテゴリを分類する際、顕著な柔軟性を示す。
既存の視覚言語モデルは、しばしば準最適プロンプトエンジニアリングのため、現実世界のアプリケーションでは性能が劣る。
これらの問題に対処するために,概念誘導型人間ライクなベイズ推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-20T06:20:13Z) - OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。
我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。
提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-16T18:59:52Z) - Concept Based Continuous Prompts for Interpretable Text Classification [18.821639956791213]
本稿では、連続的なプロンプトを人間可読な概念に分解して解釈する枠組みを提案する。
我々は、GPT-4oを用いて概念プールを生成し、差別的で代表的な潜在的候補概念を選択する。
実験により,本フレームワークは従来のPチューニングや単語ベースアプローチと同じような結果が得られることが示された。
論文 参考訳(メタデータ) (2024-12-02T15:56:08Z) - Coarse-to-Fine Concept Bottleneck Models [9.910980079138206]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。
我々のゴールは、人間の理解可能な概念を2段階の粒度で、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することである。
この枠組みでは、概念情報は全体像と一般的な非構造概念の類似性にのみ依存せず、画像シーンのパッチ固有の領域に存在するより粒度の細かい概念情報を発見・活用するために概念階層の概念を導入している。
論文 参考訳(メタデータ) (2023-10-03T14:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。