論文の概要: Rectify ViT Shortcut Learning by Visual Saliency
- arxiv url: http://arxiv.org/abs/2206.08567v1
- Date: Fri, 17 Jun 2022 05:54:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:56:27.406384
- Title: Rectify ViT Shortcut Learning by Visual Saliency
- Title(参考訳): 視覚サリエンシーによるvitショートカット学習の修正
- Authors: Chong Ma, Lin Zhao, Yuzhong Chen, David Weizhong Liu, Xi Jiang, Tuo
Zhang, Xintao Hu, Dinggang Shen, Dajiang Zhu, Tianming Liu
- Abstract要約: ショートカット学習は一般的だが、ディープラーニングモデルには有害である。
本研究では,ショートカット学習の精度向上を目的とした,新規かつ効果的なサリエンシ誘導型視覚変換器(SGT)モデルを提案する。
- 参考スコア(独自算出の注目度): 40.55418820114868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shortcut learning is common but harmful to deep learning models, leading to
degenerated feature representations and consequently jeopardizing the model's
generalizability and interpretability. However, shortcut learning in the widely
used Vision Transformer framework is largely unknown. Meanwhile, introducing
domain-specific knowledge is a major approach to rectifying the shortcuts,
which are predominated by background related factors. For example, in the
medical imaging field, eye-gaze data from radiologists is an effective human
visual prior knowledge that has the great potential to guide the deep learning
models to focus on meaningful foreground regions of interest. However,
obtaining eye-gaze data is time-consuming, labor-intensive and sometimes even
not practical. In this work, we propose a novel and effective saliency-guided
vision transformer (SGT) model to rectify shortcut learning in ViT with the
absence of eye-gaze data. Specifically, a computational visual saliency model
is adopted to predict saliency maps for input image samples. Then, the saliency
maps are used to distil the most informative image patches. In the proposed
SGT, the self-attention among image patches focus only on the distilled
informative ones. Considering this distill operation may lead to global
information lost, we further introduce, in the last encoder layer, a residual
connection that captures the self-attention across all the image patches. The
experiment results on four independent public datasets show that our SGT
framework can effectively learn and leverage human prior knowledge without eye
gaze data and achieves much better performance than baselines. Meanwhile, it
successfully rectifies the harmful shortcut learning and significantly improves
the interpretability of the ViT model, demonstrating the promise of
transferring human prior knowledge derived visual saliency in rectifying
shortcut learning
- Abstract(参考訳): 近道学習は、ディープラーニングモデルでは一般的だが有害であり、特徴表現が失われ、結果としてモデルの一般化可能性と解釈可能性が損なわれる。
しかし、広く使われているVision Transformerフレームワークでのショートカット学習はほとんど不明である。
一方、ドメイン固有の知識の導入は、背景要因によって優先されるショートカットの修正における主要なアプローチである。
例えば、医療画像分野では、放射線科医によるアイガゼデータは、人間の視覚に先行した知識であり、深層学習モデルに有意義な前景領域に焦点を当てる大きな可能性を秘めている。
しかし、アイガゼデータの取得には時間がかかり、労働集約的であり、時には実用的でない場合もある。
本研究では,視線データがない状態でのViTにおけるショートカット学習を補正するための,新規で効果的なサリエンシ誘導型視覚変換器(SGT)モデルを提案する。
具体的には、入力画像サンプルの精度マップを予測するために、計算ビジュアル・サリエンシ・モデルを採用する。
次に、最も情報性の高い画像パッチを消し去るために、サリエンシマップを使用する。
提案するsgtでは,画像パッチ間の自己付着は蒸留した情報のみに焦点をあてる。
この蒸留処理がグローバルな情報が失われることを考えると、最後のエンコーダ層では、すべてのイメージパッチの自己注意をキャプチャする残差接続が導入された。
4つの独立したパブリックデータセットによる実験の結果,我々のsgtフレームワークは,視線データなしで人間の事前知識を効果的に学習し,活用でき,ベースラインよりも優れたパフォーマンスを達成できることがわかった。
一方, 有害近道学習の是正に成功し, vitモデルの解釈性が大幅に向上し, 近道学習における人間の先天的知識の伝達が期待できることを示した。
関連論文リスト
- Exploring the Evolution of Hidden Activations with Live-Update Visualization [12.377279207342735]
我々は、トレーニング中に隠された表現の進行を明らかにする自動化されたリアルタイム可視化ツールであるSentryCamを紹介した。
以上の結果から, この可視化は, 基礎的指標と比較して, 学習のダイナミクスをより包括的に把握できることが示唆された。
SentryCamは、タスク転送や破滅的な忘れなど、継続的な学習環境への詳細な分析を容易にすることができる。
論文 参考訳(メタデータ) (2024-05-24T01:23:20Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Eye-gaze-guided Vision Transformer for Rectifying Shortcut Learning [42.674679049746175]
我々は、深層ニューラルネットワークのトレーニングに、人間の専門家の知性とドメイン知識を注入することを提案する。
医用画像データに制限のある診断のための新しい視線誘導型視覚変換器(EG-ViT)を提案する。
論文 参考訳(メタデータ) (2022-05-25T03:29:10Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - CutPaste: Self-Supervised Learning for Anomaly Detection and
Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。
まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。
MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文 参考訳(メタデータ) (2021-04-08T19:04:55Z) - Imitation Learning with Human Eye Gaze via Multi-Objective Prediction [3.5779268406205618]
本稿では,新しい文脈認識型模倣学習アーキテクチャであるGaze Regularized Imitation Learning (GRIL)を提案する。
GRILは人間のデモンストレーションと視線の両方から同時に学習し、視覚的注意が重要なコンテキストを提供するタスクを解決する。
GRILは、最先端の視線に基づく模倣学習アルゴリズムよりも優れており、同時に人間の視覚的注意を予測し、トレーニングデータに存在しないシナリオに一般化する。
論文 参考訳(メタデータ) (2021-02-25T17:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。