論文の概要: Keypoint Counting Classifiers: Turning Vision Transformers into Self-Explainable Models Without Training
- arxiv url: http://arxiv.org/abs/2512.17891v1
- Date: Fri, 19 Dec 2025 18:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.532541
- Title: Keypoint Counting Classifiers: Turning Vision Transformers into Self-Explainable Models Without Training
- Title(参考訳): キーポイントカウント分類器:訓練なしで視覚変換器を自己説明可能なモデルに変換する
- Authors: Kristoffer Wickstrøm, Teresa Dorszewski, Siyan Chen, Michael Kampffmeyer, Elisabeth Wetzer, Robert Jenssen,
- Abstract要約: 我々は、よく訓練されたViTベースのモデルを、再訓練せずにSEMに変換する新しい方法を提案する。
近年の研究では、ViTが画像間のマッチングキーポイントを自動的に識別できることが示されている。
これらの結果に基づいて、容易に解釈可能な意思決定プロセスを作成します。
- 参考スコア(独自算出の注目度): 22.015913497901575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches for designing self-explainable models (SEMs) require complicated training procedures and specific architectures which makes them impractical. With the advance of general purpose foundation models based on Vision Transformers (ViTs), this impracticability becomes even more problematic. Therefore, new methods are necessary to provide transparency and reliability to ViT-based foundation models. In this work, we present a new method for turning any well-trained ViT-based model into a SEM without retraining, which we call Keypoint Counting Classifiers (KCCs). Recent works have shown that ViTs can automatically identify matching keypoints between images with high precision, and we build on these results to create an easily interpretable decision process that is inherently visualizable in the input. We perform an extensive evaluation which show that KCCs improve the human-machine communication compared to recent baselines. We believe that KCCs constitute an important step towards making ViT-based foundation models more transparent and reliable.
- Abstract(参考訳): 自己説明可能なモデル(SEM)を設計するための現在のアプローチは、複雑なトレーニング手順と、それを非現実的にするための特定のアーキテクチャを必要とする。
ビジョントランスフォーマー(ViT)に基づく汎用基盤モデルの進歩により、この非現実性はさらに問題となる。
したがって、ViTベースの基盤モデルに透明性と信頼性を提供するために、新しい手法が必要である。
本研究では、よく訓練されたViTベースのモデルを再学習せずにSEMに変換する新しい手法を提案し、キーポイントカウント分類器(KCC)と呼ぶ。
近年の研究では、ViTが画像間の一致したキーポイントを高精度で自動的に識別できることが示されており、これらの結果に基づいて、入力に本質的に視覚化可能な、容易に解釈可能な決定プロセスを作成する。
我々は、最近のベースラインと比較して、KCCが人間と機械のコミュニケーションを改善していることを示す広範な評価を行う。
KCCは、ViTベースのファンデーションモデルをより透明で信頼性の高いものにするための重要なステップであると考えています。
関連論文リスト
- ViT$^3$: Unlocking Test-Time Training in Vision [56.74014676094694]
テストタイムトレーニング(TTT)は、効率的なシーケンスモデリングのための有望な方向として登場した。
本稿では,視覚的シーケンスモデリングのためのTTT設計の体系的研究について述べる。
我々は、線形複雑性と並列化計算を実現する純粋なTTTアーキテクチャであるビジョンテストタイムトレーニング(ViT$3$)モデルで結論付ける。
論文 参考訳(メタデータ) (2025-12-01T13:14:48Z) - VESSA: Video-based objEct-centric Self-Supervised Adaptation for Visual Foundation Models [0.18665975431697424]
ファンデーションモデルは、大規模な事前訓練と教師付き微調整によって、多様なタスクにわたる強力なパフォーマンスを実現することにより、高度なコンピュータビジョンを持つ。
本稿では,視覚基盤モデルに対して,アノテーションを必要とせずに新たなドメインにモデルを適応させる,自己教師型微調整の新たな定式化を提案する。
VESSA(VojEct-centric Self-Supervised Adaptation for visual foundation model)と呼ぶ。
論文 参考訳(メタデータ) (2025-10-23T20:44:28Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning [0.0]
視覚言語モデル(VLM)と、事前学習された視覚モデルを用いた伝達学習は、この問題に対処するための有望な手法として現れる。
本稿では,VLMと事前学習した視覚モデルを組み合わせたゼロショット画像分類フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T12:54:52Z) - ViTmiX: Vision Transformer Explainability Augmented by Mixed Visualization Methods [1.1650821883155187]
本稿では,ViTモデルの解釈可能性を高めるために,複数の説明可能性手法を混合したハイブリッドアプローチを提案する。
実験の結果,このハイブリッド手法は個々の手法と比較して,ViTモデルの解釈可能性を大幅に向上することがわかった。
説明可能性の向上を定量化するために, ピジョンホールの原理を適用した, ポストホックな説明可能性尺度を導入した。
論文 参考訳(メタデータ) (2024-12-18T18:18:19Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。