論文の概要: VLG-CBM: Training Concept Bottleneck Models with Vision-Language Guidance
- arxiv url: http://arxiv.org/abs/2408.01432v1
- Date: Thu, 18 Jul 2024 19:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 05:08:48.006973
- Title: VLG-CBM: Training Concept Bottleneck Models with Vision-Language Guidance
- Title(参考訳): VLG-CBM:ビジョンランゲージ誘導を用いた概念ボトルネックモデルの訓練
- Authors: Divyansh Srivastava, Ge Yan, Tsui-Wei Weng,
- Abstract要約: 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念を符号化してモデルの決定を説明する中間概念ボトルネック層 (Concept Bottleneck Layer, CBL) を導入することで、解釈可能な予測を提供する。
近年、LLM(Large Language Models)とVLM(Valge-Language Models)を併用してCBMのトレーニングを自動化し、よりスケーラブルで自動化する研究が提案されている。
本稿では,VLG-CBM(Vision-Language-Guided Concept Bottleneck Model)を提案する。
- 参考スコア(独自算出の注目度): 16.16577751549164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept Bottleneck Models (CBMs) provide interpretable prediction by introducing an intermediate Concept Bottleneck Layer (CBL), which encodes human-understandable concepts to explain models' decision. Recent works proposed to utilize Large Language Models (LLMs) and pre-trained Vision-Language Models (VLMs) to automate the training of CBMs, making it more scalable and automated. However, existing approaches still fall short in two aspects: First, the concepts predicted by CBL often mismatch the input image, raising doubts about the faithfulness of interpretation. Second, it has been shown that concept values encode unintended information: even a set of random concepts could achieve comparable test accuracy to state-of-the-art CBMs. To address these critical limitations, in this work, we propose a novel framework called Vision-Language-Guided Concept Bottleneck Model (VLG-CBM) to enable faithful interpretability with the benefits of boosted performance. Our method leverages off-the-shelf open-domain grounded object detectors to provide visually grounded concept annotation, which largely enhances the faithfulness of concept prediction while further improving the model performance. In addition, we propose a new metric called Number of Effective Concepts (NEC) to control the information leakage and provide better interpretability. Extensive evaluations across five standard benchmarks show that our method, VLG-CBM, outperforms existing methods by at least 4.27% and up to 51.09% on accuracy at NEC=5, and by at least 0.45% and up to 29.78% on average accuracy across different NECs, while preserves both faithfulness and interpretability of the learned concepts as demonstrated in extensive experiments.
- Abstract(参考訳): 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念を符号化してモデルの決定を説明する中間概念ボトルネック層 (Concept Bottleneck Layer, CBL) を導入することで、解釈可能な予測を提供する。
近年、LLM(Large Language Models)とVLM(Valge-Language Models)を併用してCBMのトレーニングを自動化し、よりスケーラブルで自動化する研究が提案されている。
第一に、CBLによって予測される概念は、しばしば入力イメージを誤マッチさせ、解釈の忠実さに関する疑念を提起する。
第二に、意図しない情報を符号化する概念値が示されている: ランダムな概念の集合でさえ、最先端のCBMと同等のテスト精度を達成できる。
これらの限界に対処するため,本研究では,高機能化による忠実な解釈性を実現するために,VLG-CBM(Vision-Language-Guided Concept Bottleneck Model)と呼ばれる新しいフレームワークを提案する。
提案手法は,市販のオープンドメイン型物体検出装置を利用して,概念予測の忠実度を高めつつ,モデル性能を向上する視覚的概念アノテーションを提供する。
さらに,情報漏洩を制御し,解釈可能性を高めるため,Number of Effective Concepts (NEC) と呼ばれる新しい指標を提案する。
5つの標準ベンチマークにおいて、我々の手法であるVLG-CBMは、NEC=5の精度で少なくとも4.27%、最大51.09%、異なるNEC全体の平均精度で少なくとも0.45%、最大29.78%を上回り、学習概念の忠実さと解釈可能性の両方を広範囲な実験で示す。
関連論文リスト
- Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - LG-CAV: Train Any Concept Activation Vector with Language Guidance [38.55532174193906]
概念アクティベーションベクター(CAV)は、特定の概念にモデル予測をエレガントにもたらすことによって、説明可能なAIに幅広い研究関心を集めている。
本研究では,言語誘導型CAV (LG-CAV) を提案する。
論文 参考訳(メタデータ) (2024-10-14T09:08:48Z) - Self-supervised Interpretable Concept-based Models for Text Classification [9.340843984411137]
本稿では,自己教師型解釈可能な概念埋め込みモデル(ICEM)を提案する。
我々は,大規模言語モデルの一般化能力を活用し,概念ラベルを自己管理的に予測する。
ICEMは、完全に教師されたコンセプトベースモデルやエンドツーエンドのブラックボックスモデルと同じようなパフォーマンスを達成するために、自己管理的な方法でトレーニングすることができる。
論文 参考訳(メタデータ) (2024-06-20T14:04:53Z) - Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution [49.762034744605955]
視覚言語モデルの解釈性を改善するために,マルチモーダル情報ボトルネック手法を提案する。
視覚言語事前学習モデルの帰属分析にM2IBを適用する方法を示す。
論文 参考訳(メタデータ) (2023-12-28T18:02:22Z) - Auxiliary Losses for Learning Generalizable Concept-based Models [5.4066453042367435]
コンセプト・ボトルネック・モデル (Concept Bottleneck Models, CBM) は導入以来人気を集めている。
CBMは基本的に、モデルの潜在空間を人間に理解可能な高レベルな概念に制限する。
本稿では,協調型コンセプション・ボトルネックモデル(coop-CBM)を提案し,性能トレードオフを克服する。
論文 参考訳(メタデータ) (2023-11-18T15:50:07Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Concept Embedding Models [27.968589555078328]
概念ボトルネックモデルは、人間のような概念の中間レベルに分類タスクを条件付けすることで、信頼性を促進する。
既存の概念ボトルネックモデルは、高いタスク精度、堅牢な概念に基づく説明、概念に対する効果的な介入の間の最適な妥協を見つけることができない。
本稿では,解釈可能な高次元概念表現を学習することで,現在の精度-vs-解釈可能性トレードオフを超える新しい概念ボトルネックモデルであるConcept Embedding Modelsを提案する。
論文 参考訳(メタデータ) (2022-09-19T14:49:36Z) - GlanceNets: Interpretabile, Leak-proof Concept-based Models [23.7625973884849]
概念ベースモデル(CBM)は、高レベルの概念の語彙の獲得と推論によって、ハイパフォーマンスと解釈可能性を組み合わせる。
我々は、モデル表現と基礎となるデータ生成プロセスとの整合性の観点から、解釈可能性を明確に定義する。
GlanceNetsは不整合表現学習とオープンセット認識の技法を利用してアライメントを実現する新しいCBMである。
論文 参考訳(メタデータ) (2022-05-31T08:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。