論文の概要: Interpretable Vision Transformers in Image Classification via SVDA
- arxiv url: http://arxiv.org/abs/2602.10994v1
- Date: Wed, 11 Feb 2026 16:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.169401
- Title: Interpretable Vision Transformers in Image Classification via SVDA
- Title(参考訳): SVDAを用いた画像分類における解釈可能な視覚変換器
- Authors: Vasileios Arampatzakis, George Pavlidis, Nikolaos Mitianoudis, Nikos Papamarkos,
- Abstract要約: 視覚変換器(ViT)は画像分類において最先端のパフォーマンスを達成したが、その注意機構は不透明であり、密集した非構造的な振る舞いを示すことが多い。
これまでに提案したSVD-Inspired Attention (SVDA) 機構を ViT アーキテクチャに適用し,解釈性,空間性,スペクトル構造を向上する幾何的に基底化された定式化を導入する。
- 参考スコア(独自算出の注目度): 5.8833115420537085
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Transformers (ViTs) have achieved state-of-the-art performance in image classification, yet their attention mechanisms often remain opaque and exhibit dense, non-structured behaviors. In this work, we adapt our previously proposed SVD-Inspired Attention (SVDA) mechanism to the ViT architecture, introducing a geometrically grounded formulation that enhances interpretability, sparsity, and spectral structure. We apply the use of interpretability indicators -- originally proposed with SVDA -- to monitor attention dynamics during training and assess structural properties of the learned representations. Experimental evaluations on four widely used benchmarks -- CIFAR-10, FashionMNIST, CIFAR-100, and ImageNet-100 -- demonstrate that SVDA consistently yields more interpretable attention patterns without sacrificing classification accuracy. While the current framework offers descriptive insights rather than prescriptive guidance, our results establish SVDA as a comprehensive and informative tool for analyzing and developing structured attention models in computer vision. This work lays the foundation for future advances in explainable AI, spectral diagnostics, and attention-based model compression.
- Abstract(参考訳): 視覚変換器(ViT)は画像分類において最先端のパフォーマンスを達成したが、その注意機構は不透明であり、密集した非構造的な振る舞いを示すことが多い。
本研究では,これまで提案してきたSVD-Inspired Attention (SVDA) 機構を ViT アーキテクチャに適用し,解釈可能性,空間性,スペクトル構造を向上する幾何的に基底化された定式化を導入する。
SVDAで提案された解釈可能性インジケータを用いて,学習中の注意動態を監視し,学習した表現の構造的特性を評価する。
CIFAR-10、FashionMNIST、CIFAR-100、ImageNet-100という4つの広く使われているベンチマークの実験的な評価は、SVDAが分類精度を犠牲にすることなく、より解釈可能な注意パターンを常に得ることを示した。
現在のフレームワークでは、規範的ガイダンスよりも説明的な洞察を提供するが、コンピュータビジョンにおける構造化された注意モデルの解析と開発のための包括的かつ情報的ツールとしてSVDAを確立している。
この研究は、説明可能なAI、スペクトル診断、注意に基づくモデル圧縮における将来の進歩の基礎を成している。
関連論文リスト
- Interpretable Vision Transformers in Monocular Depth Estimation via SVDA [5.8833115420537085]
我々はDense Prediction Transformer (DPT) にSVD-Inspired Attention (SVDA) を導入する。
SVDAは、学習可能な対角行列を正規化クエリキー相互作用に埋め込むことにより、スペクトル変調から方向アライメントを分離する。
KITTIとNYU-v2の実験では、SVDAは小さな計算オーバーヘッドのみを加えながら予測精度をわずかに改善している。
論文 参考訳(メタデータ) (2026-02-11T16:27:15Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - ASCENT-ViT: Attention-based Scale-aware Concept Learning Framework for Enhanced Alignment in Vision Transformers [29.932706137805713]
ASCENT-ViTは、視覚変換器(ViT)のための注意に基づく概念学習フレームワークである。
マルチスケールの特徴ピラミッドとViTパッチの表現から、スケールと位置認識の表現をそれぞれ構成する。
標準的なViTバックボーンの上の分類ヘッドとして利用でき、予測性能を改善し、正確で堅牢な概念説明を行うことができる。
論文 参考訳(メタデータ) (2025-01-16T00:45:05Z) - ReViT: Enhancing Vision Transformers Feature Diversity with Attention Residual Connections [8.372189962601077]
視覚変換器(ViT)自己保持機構は、深い層に特徴的崩壊を特徴とする。
本稿では,ViTに基づくアーキテクチャを改良するための新たな注意学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T14:44:10Z) - Representation Learning in a Decomposed Encoder Design for Bio-inspired Hebbian Learning [5.67478985222587]
本稿では,異なる不変な視覚ディスクリプタを帰納バイアスとして活用する並列エンコーダを含む,バイオインスパイアされたコントラッシブ予測符号化を訓練したモジュラーフレームワークを提案する。
以上の結果から,帰納的バイアスは学習表現の堅牢性を大幅に向上させ,モデル間の性能ギャップを狭めることが示唆された。
論文 参考訳(メタデータ) (2023-11-22T07:58:14Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Uncovering the Inner Workings of STEGO for Safe Unsupervised Semantic
Segmentation [68.8204255655161]
近年,コンピュータビジョンにおける汎用的特徴抽出バックボーンのトレーニングにおいて,自己指導型事前学習戦略が顕著な成果を上げている。
DINOの自己蒸留技術は、暗黙のラベルを使わずに、潜在空間における教師なしクラスタリングや生成した特徴の意味的対応など、興味深い特徴を持っている。
教師なしセマンティックセグメンテーションコントラストのSTEGO法は、DINO-pre-trained Vision Transformerの特徴対応を蒸留し、最近その新しい状態を設定した。
論文 参考訳(メタデータ) (2023-04-14T15:30:26Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。