論文の概要: Tell me why: Visual foundation models as self-explainable classifiers
- arxiv url: http://arxiv.org/abs/2502.19577v1
- Date: Wed, 26 Feb 2025 21:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:34.118883
- Title: Tell me why: Visual foundation models as self-explainable classifiers
- Title(参考訳): 理由を教えてください:ビジュアルファウンデーションモデルは自己説明可能な分類器として
- Authors: Hugues Turbé, Mina Bjelogrlic, Gianmarco Mengaldo, Christian Lovis,
- Abstract要約: ビジュアルファウンデーションモデル(VFM)は、最先端のパフォーマンスのために人気が高まっている。
重要な応用には 解釈可能性が不可欠です
本研究は, VFMと新しいアーキテクチャ, 専門的な学習目標を組み合わせることを目的とする。
- 参考スコア(独自算出の注目度): 0.6249768559720122
- License:
- Abstract: Visual foundation models (VFMs) have become increasingly popular due to their state-of-the-art performance. However, interpretability remains crucial for critical applications. In this sense, self-explainable models (SEM) aim to provide interpretable classifiers that decompose predictions into a weighted sum of interpretable concepts. Despite their promise, recent studies have shown that these explanations often lack faithfulness. In this work, we combine VFMs with a novel prototypical architecture and specialized training objectives. By training only a lightweight head (approximately 1M parameters) on top of frozen VFMs, our approach (ProtoFM) offers an efficient and interpretable solution. Evaluations demonstrate that our approach achieves competitive classification performance while outperforming existing models across a range of interpretability metrics derived from the literature. Code is available at https://github.com/hturbe/proto-fm.
- Abstract(参考訳): ビジュアルファウンデーションモデル(VFM)は、最先端のパフォーマンスのために人気が高まっている。
しかし、重要な応用には解釈可能性が不可欠である。
この意味で、自己説明可能なモデル(SEM)は、予測を解釈可能な概念の重み付き和に分解する解釈可能な分類器を提供することを目的としている。
彼らの約束にもかかわらず、最近の研究はこれらの説明がしばしば忠実さを欠いていることを示している。
本研究では,VFMを新しいプロトタイプアーキテクチャと特別な訓練目標と組み合わせる。
凍結したVFM上に軽量なヘッド(約100Mパラメータ)のみをトレーニングすることにより、我々のアプローチ(ProtoFM)は効率的かつ解釈可能なソリューションを提供する。
評価の結果,本手法は,文献から派生した解釈可能性指標の範囲で既存モデルより優れた性能を示しながら,競争力のある分類性能を示す。
コードはhttps://github.com/hturbe/proto-fm.comで入手できる。
関連論文リスト
- Investigating Compositional Reasoning in Time Series Foundation Models [16.421597202235112]
TSFMアーキテクチャ設計が構成的推論と一般化に与える影響について検討する。
私たちはパッチベースのトランスフォーマーが最高の理由付け性能を持っていることに気付きました。
いくつかのゼロショットのアウト・オブ・ディストリビューションのシナリオでは、これらのモデルは、イン・ディストリビューションデータに基づいてトレーニングされた移動平均と指数的スムーズな統計ベースラインより優れている。
論文 参考訳(メタデータ) (2025-02-09T21:21:55Z) - Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Prototypical Self-Explainable Models Without Re-training [5.837536154627278]
自己説明可能なモデル(SEM)は、予測とともに説明を提供するために直接訓練される。
現在のSEMは複雑なアーキテクチャと高度に規則化された損失関数を必要とするため、具体的かつコストのかかる訓練が必要である。
我々は、既存の事前学習されたモデルからプロトタイプSEMに変換することができる、KMExと呼ばれる単純で効率的な普遍的手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T01:15:00Z) - Learning from models beyond fine-tuning [78.20895343699658]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。
Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。
提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-10-27T02:57:26Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z) - Interpretable Learning-to-Rank with Generalized Additive Models [78.42800966500374]
ラーニング・ツー・ランクのモデルの解釈可能性は、非常に重要でありながら、比較的過小評価されている研究分野である。
解釈可能なランキングモデルの最近の進歩は、主に既存のブラックボックスランキングモデルに対するポストホックな説明の生成に焦点を当てている。
一般化加法モデル(GAM)をランキングタスクに導入することにより,本質的に解釈可能な学習 to ランクの基盤を築いた。
論文 参考訳(メタデータ) (2020-05-06T01:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。