論文の概要: The Loupe: A Plug-and-Play Attention Module for Amplifying Discriminative Features in Vision Transformers
- arxiv url: http://arxiv.org/abs/2508.16663v1
- Date: Wed, 20 Aug 2025 19:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.0995
- Title: The Loupe: A Plug-and-Play Attention Module for Amplifying Discriminative Features in Vision Transformers
- Title(参考訳): The Loupe:視覚変換器の識別機能を増幅するプラグイン・アンド・プレイアテンションモジュール
- Authors: Naren Sengodan,
- Abstract要約: このモジュールは、Swin Transformerのようなトレーニング済みのバックボーンに挿入されるように設計されている。
Loupeは、モデルを暗黙的に誘導し、最も差別的なオブジェクト部品にフォーカスする複合損失関数でエンドツーエンドに訓練されている。
挑戦的なCUB-200-2011データセットに関する実験により、The LoupeはSwin-Baseモデルの精度を85.40%から88.06%に改善し、2.66%の大幅な向上を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-Grained Visual Classification (FGVC) is a critical and challenging area within computer vision, demanding the identification of highly subtle, localized visual cues. The importance of FGVC extends to critical applications such as biodiversity monitoring and medical diagnostics, where precision is paramount. While large-scale Vision Transformers have achieved state-of-the-art performance, their decision-making processes often lack the interpretability required for trust and verification in such domains. In this paper, we introduce The Loupe, a novel, lightweight, and plug-and-play attention module designed to be inserted into pre-trained backbones like the Swin Transformer. The Loupe is trained end-to-end with a composite loss function that implicitly guides the model to focus on the most discriminative object parts without requiring explicit part-level annotations. Our unique contribution lies in demonstrating that a simple, intrinsic attention mechanism can act as a powerful regularizer, significantly boosting performance while simultaneously providing clear visual explanations. Our experimental evaluation on the challenging CUB-200-2011 dataset shows that The Loupe improves the accuracy of a Swin-Base model from 85.40% to 88.06%, a significant gain of 2.66%. Crucially, our qualitative analysis of the learned attention maps reveals that The Loupe effectively localizes semantically meaningful features, providing a valuable tool for understanding and trusting the model's decision-making process.
- Abstract(参考訳): Fine-Grained Visual Classification (FGVC) はコンピュータビジョンにおいて重要かつ困難な領域であり、非常に微妙で局所的な視覚的手がかりの識別を要求する。
FGVCの重要性は、生物多様性モニタリングや医療診断などの重要な応用にまで拡張され、精度が最重要である。
大規模なビジョントランスフォーマーは最先端のパフォーマンスを達成したが、それらの意思決定プロセスは、そのような領域における信頼と検証に必要な解釈性に欠けることが多い。
本稿では,Swin Transformerのようなトレーニング済みのバックボーンに挿入されるように設計された,新規で軽量かつプラグアンドプレイアテンションモジュールであるThe Loupeを紹介する。
Loupeは、明示的な部分レベルのアノテーションを必要とせずに、モデルを最も差別的なオブジェクト部分に集中するように暗黙的にガイドする複合損失関数でエンドツーエンドに訓練されている。
我々のユニークな貢献は、単純で本質的な注意機構が強力な正則化器として機能し、性能を大幅に向上し、同時に明確な視覚的説明を提供することである。
挑戦的なCUB-200-2011データセットに関する実験により、The LoupeはSwin-Baseモデルの精度を85.40%から88.06%に改善し、2.66%の大幅な向上を示した。
重要なことは、学習された注意マップの質的な分析によって、The Loupeが意味論的に意味のある特徴を効果的にローカライズし、モデルの意思決定プロセスを理解し信頼するための貴重なツールを提供することが明らかになった。
関連論文リスト
- Investigate the Low-level Visual Perception in Vision-Language based Image Quality Assessment [7.969076042774561]
低レベルの歪み知覚タスクを導入し、モデルが特定の歪みタイプを分類する必要がある。
解析の結果,MLLMは構造的にそのような歪みを表現できるが,トレーニングテンプレートに適合しがちであることがわかった。
視覚エンコーダのアライメントを改善することで、歪み認識精度が劇的に向上し、14.92%から84.43%に向上することを示す。
論文 参考訳(メタデータ) (2025-12-10T12:06:47Z) - On the Perception Bottleneck of VLMs for Chart Understanding [17.70892579781301]
チャート理解には、数値データ、テキスト要素、複雑なビジュアルコンポーネントを分析し、推論するモデルが必要である。
この過程において,既存の大規模視覚言語モデル(LVLM)の知覚能力が重要なボトルネックとなっていることが明らかとなった。
本研究では,視覚エンコーダのボトルネックと抽出ボトルネックの2つのコンポーネントに分解することで,この認識ボトルネックを解明する。
論文 参考訳(メタデータ) (2025-03-24T08:33:58Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Object recognition in primates: What can early visual areas contribute? [0.0]
本研究では,初期視覚処理領域で搬送される信号が周囲の物体認識にどのように利用されるかを検討した。
V1の単純なセルや複雑なセルのモデルは、非常に信頼できる情報を提供することができ、現実的なシナリオでは80%以上の性能が向上する。
我々は,物体認識を並列プロセスと見なすべきであり,低精度かつ高速なモジュールと並列に動作し,視野をまたいで動作可能であることを提案する。
論文 参考訳(メタデータ) (2024-07-05T18:57:09Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。