論文の概要: DINO-QPM: Adapting Visual Foundation Models for Globally Interpretable Image Classification
- arxiv url: http://arxiv.org/abs/2604.07166v1
- Date: Wed, 08 Apr 2026 14:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.594257
- Title: DINO-QPM: Adapting Visual Foundation Models for Globally Interpretable Image Classification
- Title(参考訳): DINO-QPM:グローバルに解釈可能な画像分類のためのビジュアルファウンデーションモデルの適用
- Authors: Robert Zimmermann, Thomas Norrenbrock, Bodo Rosenhahn,
- Abstract要約: この研究は、強力だが絡み合った特徴を対照的なクラス非依存表現に変換するDINO-QPMを提案する。
DINO-QPMは、グローバルな解釈可能な画像分類を追求する軽量な解釈可能性アダプタである。
- 参考スコア(独自算出の注目度): 26.47045755286244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although visual foundation models like DINOv2 provide state-of-the-art performance as feature extractors, their complex, high-dimensional representations create substantial hurdles for interpretability. This work proposes DINO-QPM, which converts these powerful but entangled features into contrastive, class-independent representations that are interpretable by humans. DINO-QPM is a lightweight interpretability adapter that pursues globally interpretable image classification, adapting the Quadratic Programming Enhanced Model (QPM) to operate on strictly frozen DINO backbones. While classification with visual foundation models typically relies on the \texttt{CLS} token, we deliberately diverge from this standard. By leveraging average-pooling, we directly connect the patch embeddings to the model's features and therefore enable spatial localisation of DINO-QPM's globally interpretable features within the input space. Furthermore, we apply a sparsity loss to minimise spatial scatter and background noise, ensuring that explanations are grounded in relevant object parts. With DINO-QPM we make the level of interpretability of QPM available as an adapter while exceeding the accuracy of DINOv2 linear probe. Evaluated through an introduced Plausibility metric and other interpretability metrics, extensive experiments demonstrate that DINO-QPM is superior to other applicable methods for frozen visual foundation models in both classification accuracy and explanation quality.
- Abstract(参考訳): DINOv2のような視覚基盤モデルは、特徴抽出器として最先端のパフォーマンスを提供するが、それらの複雑な高次元表現は解釈可能性のための大きなハードルを生んでいる。
この研究は、これらの強力だが絡み合った特徴を、人間によって解釈可能な、対照的でクラスに依存しない表現に変換するDINO-QPMを提案する。
DINO-QPMは、グローバルに解釈可能な画像分類を追求する軽量な解釈可能性アダプタであり、厳密な凍結したDINOバックボーンを操作するためにQuadratic Programming Enhanced Model (QPM)を採用している。
視覚基盤モデルを用いた分類は、通常、 \texttt{CLS} トークンに依存するが、意図的にこの標準から逸脱する。
平均プーリングを利用することで、パッチ埋め込みをモデルの特徴に直接接続し、入力空間内でのDINO-QPMのグローバルな解釈可能な特徴の空間的局所化を可能にする。
さらに,空間散乱と背景雑音を最小限に抑えるため,空間散乱と背景雑音を最小化するために空間損失を適用する。
DINO-QPMでは、DINOv2線形プローブの精度を越えながら、アダプタとしてQPMの解釈可能性のレベルを向上する。
DINO-QPMは分類精度と説明品質の両方において、凍結視覚基盤モデルの他の適用方法よりも優れていることを示した。
関連論文リスト
- Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification [3.6907522136316975]
CMS Re-ID(Cross-Modality Ship Re-Identification)は、全天候の海上目標追跡を実現するために重要である。
モダリティギャップのブリッジ化におけるビジョン・ファンデーション・モデル(VFM)の可能性を探る。
ドメイン表現注入(Domain Representation Injection, DRI)と呼ばれる新しいPEFT戦略を提案する。
論文 参考訳(メタデータ) (2025-12-24T02:30:23Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文 参考訳(メタデータ) (2025-07-17T11:45:27Z) - Empowering Sparse-Input Neural Radiance Fields with Dual-Level Semantic Guidance from Dense Novel Views [66.1245505423179]
レンダリングされたセマンティクスは、レンダリングされたRGBよりも堅牢な拡張データとして扱うことができることを示す。
提案手法は, セマンティクスから導出されるガイダンスを組み込むことで, NeRFの性能を向上させる。
論文 参考訳(メタデータ) (2025-03-04T03:13:44Z) - QPM: Discrete Optimization for Globally Interpretable Image Classification [17.460420995034216]
本稿では,グローバルに解釈可能なクラス表現を学習する準プログラミング拡張モデル(QPM)を紹介する。
QPMは、他のクラスにも割り当てられる5つの機能のうち、非常に少ないバイナリの割り当てを持つすべてのクラスを表す。
結果として得られる最適割り当ては、様々な特徴を微調整するために使用され、それぞれが共有一般概念となる。
論文 参考訳(メタデータ) (2025-02-27T14:25:36Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Rethinking interpretation: Input-agnostic saliency mapping of deep
visual classifiers [28.28834523468462]
Saliencyメソッドは、入力特徴をモデル出力に寄与させることで、ポストホックモデルの解釈を提供する。
入力特異性マッピングは本質的に誤解を招く特徴の帰属に影響を受けやすいことを示す。
本稿では,モデルが持つ高次特徴をその出力に対して計算的に推定する,入力非依存のサリエンシマッピングの新たな視点を紹介する。
論文 参考訳(メタデータ) (2023-03-31T06:58:45Z) - Layout-to-Image Translation with Double Pooling Generative Adversarial
Networks [76.83075646527521]
入力レイアウトからフォトリアリスティックでセマンティックに一貫性のある結果を生成するための新しいDouble Pooing GAN(DPGAN)を提案する。
また,角形プールモジュール (SPM) と矩形プールモジュール (RPM) からなる新しい二重プールモジュール (DPM) を提案する。
論文 参考訳(メタデータ) (2021-08-29T19:55:14Z) - A Framework to Learn with Interpretation [2.3741312212138896]
本稿では,予測モデルとその関連解釈モデルを共同で学習する新しい枠組みを提案する。
我々は,選択した隠れ層の出力を入力として取り込む,高レベル属性関数の小型辞書を求める。
学習した機能を視覚化する詳細なパイプラインも開発されている。
論文 参考訳(メタデータ) (2020-10-19T09:26:28Z) - Interpretable Learning-to-Rank with Generalized Additive Models [78.42800966500374]
ラーニング・ツー・ランクのモデルの解釈可能性は、非常に重要でありながら、比較的過小評価されている研究分野である。
解釈可能なランキングモデルの最近の進歩は、主に既存のブラックボックスランキングモデルに対するポストホックな説明の生成に焦点を当てている。
一般化加法モデル(GAM)をランキングタスクに導入することにより,本質的に解釈可能な学習 to ランクの基盤を築いた。
論文 参考訳(メタデータ) (2020-05-06T01:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。