論文の概要: Exploring Interpretability for Visual Prompt Tuning with Hierarchical Concepts
- arxiv url: http://arxiv.org/abs/2503.06084v1
- Date: Sat, 08 Mar 2025 06:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:28.563401
- Title: Exploring Interpretability for Visual Prompt Tuning with Hierarchical Concepts
- Title(参考訳): 階層的概念を用いた視覚プロンプトチューニングの解釈可能性の検討
- Authors: Yubin Wang, Xinyang Jiang, De Cheng, Xiangqian Zhao, Zilong Wang, Dongsheng Li, Cairong Zhao,
- Abstract要約: 視覚的プロンプトの解釈可能性を検討するために,最初のフレームワークであるInterpretable Visual Prompt Tuningを提案する。
視覚的プロンプトは、カテゴリーに依存しないプロトタイプのセットとして表される、人間の理解可能なセマンティックな概念と関連付けられている。
IVPTはこれらの領域の特徴を集約して解釈可能なプロンプトを生成する。
- 参考スコア(独自算出の注目度): 39.92376420375139
- License:
- Abstract: Visual prompt tuning offers significant advantages for adapting pre-trained visual foundation models to specific tasks. However, current research provides limited insight into the interpretability of this approach, which is essential for enhancing AI reliability and enabling AI-driven knowledge discovery. In this paper, rather than learning abstract prompt embeddings, we propose the first framework, named Interpretable Visual Prompt Tuning (IVPT), to explore interpretability for visual prompts, by introducing hierarchical concept prototypes. Specifically, visual prompts are linked to human-understandable semantic concepts, represented as a set of category-agnostic prototypes, each corresponding to a specific region of the image. Then, IVPT aggregates features from these regions to generate interpretable prompts, which are structured hierarchically to explain visual prompts at different granularities. Comprehensive qualitative and quantitative evaluations on fine-grained classification benchmarks show its superior interpretability and performance over conventional visual prompt tuning methods and existing interpretable methods.
- Abstract(参考訳): ビジュアルプロンプトチューニングは、トレーニング済みのビジュアルファンデーションモデルを特定のタスクに適応する上で、大きなアドバンテージを提供する。
しかし、現在の研究では、AIの信頼性を高め、AI駆動の知識発見を可能にするために不可欠な、このアプローチの解釈可能性に関する限られた洞察を提供している。
本稿では,抽象的なプロンプト埋め込みを学習する代わりに,視覚的プロンプトの解釈可能性を探るため,インタプリタブル・ビジュアル・プロンプト・チューニング(IVPT,Interpretable Visual Prompt Tuning)と呼ばれる最初のフレームワークを提案する。
具体的には、視覚的なプロンプトは、画像の特定の領域に対応するカテゴリに依存しないプロトタイプのセットとして表現される、人間の理解可能な意味概念にリンクされる。
そして、IVPTはこれらの領域の特徴を集約して解釈可能なプロンプトを生成し、それは階層的に構成され、異なる粒度の視覚的プロンプトを説明する。
細粒度分類ベンチマークの総合的定性的・定量的評価は、従来の視覚的プロンプトチューニング法や既存の解釈可能な手法よりも優れた解釈性と性能を示す。
関連論文リスト
- LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Tuning Multi-mode Token-level Prompt Alignment across Modalities [48.39511580746271]
本稿では,多モードのトークンレベルチューニングフレームワークを提案し,モジュール間のプロンプトトークンの集合を学習・調整する。
具体的には、1) 多様な意味表現を保証するマルチモードプロンプト発見、2) トークンレベルのアライメント、そして、きめ細かい類似性を探索する。
一般的な画像認識ベンチマークの実験では、我々のアプローチのより優れた一般化と少ないショット能力を示している。
論文 参考訳(メタデータ) (2023-09-25T03:20:09Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。
提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。