論文の概要: LG-CAV: Train Any Concept Activation Vector with Language Guidance
- arxiv url: http://arxiv.org/abs/2410.10308v1
- Date: Mon, 14 Oct 2024 09:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 22:24:32.232041
- Title: LG-CAV: Train Any Concept Activation Vector with Language Guidance
- Title(参考訳): LG-CAV: 言語指導による概念活性化ベクトルのトレーニング
- Authors: Qihan Huang, Jie Song, Mengqi Xue, Haofei Zhang, Bingde Hu, Huiqiong Wang, Hao Jiang, Xingen Wang, Mingli Song,
- Abstract要約: 概念アクティベーションベクター(CAV)は、特定の概念にモデル予測をエレガントにもたらすことによって、説明可能なAIに幅広い研究関心を集めている。
本研究では,言語誘導型CAV (LG-CAV) を提案する。
- 参考スコア(独自算出の注目度): 38.55532174193906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept activation vector (CAV) has attracted broad research interest in explainable AI, by elegantly attributing model predictions to specific concepts. However, the training of CAV often necessitates a large number of high-quality images, which are expensive to curate and thus limited to a predefined set of concepts. To address this issue, we propose Language-Guided CAV (LG-CAV) to harness the abundant concept knowledge within the certain pre-trained vision-language models (e.g., CLIP). This method allows training any CAV without labeled data, by utilizing the corresponding concept descriptions as guidance. To bridge the gap between vision-language model and the target model, we calculate the activation values of concept descriptions on a common pool of images (probe images) with vision-language model and utilize them as language guidance to train the LG-CAV. Furthermore, after training high-quality LG-CAVs related to all the predicted classes in the target model, we propose the activation sample reweighting (ASR), serving as a model correction technique, to improve the performance of the target model in return. Experiments on four datasets across nine architectures demonstrate that LG-CAV achieves significantly superior quality to previous CAV methods given any concept, and our model correction method achieves state-of-the-art performance compared to existing concept-based methods. Our code is available at https://github.com/hqhQAQ/LG-CAV.
- Abstract(参考訳): 概念アクティベーションベクター(CAV)は、特定の概念にモデル予測をエレガントにもたらすことによって、説明可能なAIに幅広い研究関心を集めている。
しかし、CAVのトレーニングは、多くの高品質なイメージを必要とすることが多く、それはキュレートするのにコストがかかり、したがって事前に定義された概念のセットに制限される。
この問題に対処するために,ある事前学習された視覚言語モデル(例えば,CLIP)において,豊富な概念知識を活用するために,LG-CAV(Language-Guided CAV)を提案する。
この方法では、対応する概念記述をガイダンスとして利用することにより、ラベル付きデータなしで任意のCAVを訓練することができる。
視覚言語モデルと対象モデルとのギャップを埋めるため、画像の共通プール(プローブ画像)における概念記述のアクティベーション値を視覚言語モデルで算出し、LG-CAVの訓練に言語指導として活用する。
さらに,対象モデルにおける全ての予測クラスに関連する高品質なLG-CAVを訓練した後,モデル修正手法であるアクティベーションサンプル再重み付け(ASR)を提案する。
9つのアーキテクチャを対象とした4つのデータセット実験により,LG-CAVは従来のCAV手法よりもはるかに優れた品質が得られることが示された。
私たちのコードはhttps://github.com/hqhQAQ/LG-CAV.comから入手可能です。
関連論文リスト
- Exploiting Text-Image Latent Spaces for the Description of Visual Concepts [13.287533148600248]
コンセプトアクティベーションベクトル(Concept Activation Vectors, CAV)は、人間のフレンドリな概念をモデルの内部的特徴抽出プロセスにリンクすることで、ニューラルネットワークの意思決定に関する洞察を提供する。
新しいCAVが発見されたとき、それらは人間の理解可能な記述に翻訳されなければならない。
本稿では,新たに発見された概念集合の解釈を支援するために,各CAVに対してテキスト記述を提案する。
論文 参考訳(メタデータ) (2024-10-23T12:51:07Z) - VLG-CBM: Training Concept Bottleneck Models with Vision-Language Guidance [16.16577751549164]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念を符号化してモデルの決定を説明する中間概念ボトルネック層 (Concept Bottleneck Layer, CBL) を導入することで、解釈可能な予測を提供する。
近年、LLM(Large Language Models)とVLM(Valge-Language Models)を併用してCBMのトレーニングを自動化し、よりスケーラブルで自動化する研究が提案されている。
本稿では,VLG-CBM(Vision-Language-Guided Concept Bottleneck Model)を提案する。
論文 参考訳(メタデータ) (2024-07-18T19:44:44Z) - Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。
本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文 参考訳(メタデータ) (2024-07-01T14:39:41Z) - Unsupervised Prototype Adapter for Vision-Language Models [29.516767588241724]
我々はUnsupervised Prototype Adapter (UP-Adapter)と呼ばれる視覚言語モデルのための教師なし微調整アプローチを設計する。
具体的には、アノテーションのないターゲットデータセットに対して、CLIPのテキストイメージ整合機能を活用して、各クラスに対して最も確実なサンプルを自動的に選択する。
微調整後、プロトタイプモデル予測と元のCLIPの予測を残りの接続で組み合わせて下流認識タスクを実行する。
論文 参考訳(メタデータ) (2023-08-22T15:28:49Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Navigating Neural Space: Revisiting Concept Activation Vectors to
Overcome Directional Divergence [14.071950294953005]
概念活性化ベクトル (Concept Activation Vectors, CAV) は、潜在空間における人間の理解可能な概念をモデル化するための一般的なツールである。
本稿では、そのような分離性指向の解が、概念の方向性を正確にモデル化する実際の目標から逸脱する可能性があることを示す。
パターンベースのCAVを導入し、概念信号のみに着目し、より正確な概念指示を提供する。
論文 参考訳(メタデータ) (2022-02-07T19:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。