論文の概要: Clarity: The Flexibility-Interpretability Trade-Off in Sparsity-aware Concept Bottleneck Models
- arxiv url: http://arxiv.org/abs/2601.21944v1
- Date: Thu, 29 Jan 2026 16:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.991615
- Title: Clarity: The Flexibility-Interpretability Trade-Off in Sparsity-aware Concept Bottleneck Models
- Title(参考訳): Clarity:スポーシティを意識した概念ボトルネックモデルにおけるフレキシビリティと解釈可能性のトレードオフ
- Authors: Konstantinos P. Panousis, Diego Marcos,
- Abstract要約: VLM(Vision-Language Models)はしばしばブラックボックスとして扱われ、意思決定プロセスについて限定的または非既存の調査が行われる。
本稿では、下流のパフォーマンスと概念表現の空間性と精度の間の相互作用を捉える尺度である明快さの概念を紹介する。
実験の結果,柔軟性と解釈可能性の間に重要なトレードオフがあることが判明した。
- 参考スコア(独自算出の注目度): 12.322360020814516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of Vision-Language Models (VLMs) across fields has amplified concerns about model interpretability. Distressingly, these models are often treated as black-boxes, with limited or non-existent investigation of their decision making process. Despite numerous post- and ante-hoc interepretability methods, systematic and objective evaluation of the learned representations remains limited, particularly for sparsity-aware methods that are increasingly considered to "induce interpretability". In this work, we focus on Concept Bottleneck Models and investigate how different modeling decisions affect the emerging representations. We introduce the notion of clarity, a measure, capturing the interplay between the downstream performance and the sparsity and precision of the concept representation, while proposing an interpretability assessment framework using datasets with ground truth concept annotations. We consider both VLM- and attribute predictor-based CBMs, and three different sparsity-inducing strategies: per example $\ell_1, \ell_0$ and Bernoulli-based formulations. Our experiments reveal a critical trade-off between flexibility and interpretability, under which a given method can exhibit markedly different behaviors even at comparable performance levels. The code will be made publicly available upon publication.
- Abstract(参考訳): 視野における視覚言語モデル(VLM)の普及は、モデル解釈可能性に関する懸念を増幅している。
反対に、これらのモデルはブラックボックスとして扱われることが多く、意思決定プロセスについて限定的または存在しない調査がなされている。
多くのポスト・ホットおよびアンテ・ホックの相互理解性手法にもかかわらず、学習された表現の体系的および客観的評価は依然として限られており、特に「解釈可能性をもたらす」と考えられるスパシティ・アウェアな手法ではそうである。
本研究では,概念ボトルネックモデルに焦点をあて,異なるモデリング決定が出現する表現に与える影響について検討する。
そこで我々は,下流のパフォーマンスと概念表現の空間性と精度の相互作用を捉える尺度である明瞭さの概念を導入し,また,基底真理概念アノテーション付きデータセットを用いた解釈可能性評価フレームワークを提案する。
VLMおよび属性予測器ベースのCBMと、例えば $\ell_1, \ell_0$ および Bernoulli ベースの定式化の3つの異なる疎性誘導戦略を考える。
実験の結果,柔軟性と解釈可能性の間に重要なトレードオフがあることが判明した。
コードは公開時に公開される。
関連論文リスト
- Enhancing Interpretability for Vision Models via Shapley Value Optimization [10.809438356590988]
自己説明型ニューラルネットワークは、特別なアーキテクチャ設計のため、パフォーマンスと互換性を犠牲にする。
本稿では,Shapley値推定をトレーニング中の補助タスクとして統合する,新たな自己説明型フレームワークを提案する。
我々の手法は最先端の解釈可能性を実現する。
論文 参考訳(メタデータ) (2025-12-16T12:33:04Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Towards more holistic interpretability: A lightweight disentangled Concept Bottleneck Model [5.700536552863068]
概念ボトルネックモデル(CBM)は、人間の理解可能な概念を中間表現として予測することにより、解釈可能性を高める。
本稿では,視覚的特徴を意味論的に意味のある構成要素に自動的に分類する軽量なDECBMを提案する。
3つの多様なデータセットの実験により、LCDBMはより高い概念とクラス精度を達成し、解釈可能性と分類性能の両方において従来のCBMよりも優れていたことが示されている。
論文 参考訳(メタデータ) (2025-10-17T15:59:30Z) - Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。
不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。
我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文 参考訳(メタデータ) (2025-07-07T06:26:04Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Investigating the Duality of Interpretability and Explainability in Machine Learning [2.8311451575532156]
複雑な「ブラックボックス」モデルは異常な予測性能を示す。
その本質的に不透明な性質は、透明性と解釈可能性に関する懸念を提起する。
本質的に解釈可能なモデルを開発するのではなく、これらのモデルを説明することに注力しています。
論文 参考訳(メタデータ) (2025-03-27T10:48:40Z) - Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization [2.163881720692685]
本稿では,概念層をアーキテクチャに組み込むことにより,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。
我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。
複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。
論文 参考訳(メタデータ) (2025-02-19T11:10:19Z) - Linearly-Interpretable Concept Embedding Models for Text Analysis [9.340843984411137]
線形解釈可能な概念埋め込みモデル(licEM)を提案する。
licEMs分類精度は既存の解釈可能なモデルよりも優れており、ブラックボックスモデルと一致する。
私たちのモデルが提供する説明は、既存のソリューションに対してより介入可能であり、慎重に整合していることを示します。
論文 参考訳(メタデータ) (2024-06-20T14:04:53Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。