論文の概要: Eye-gaze-guided Vision Transformer for Rectifying Shortcut Learning
- arxiv url: http://arxiv.org/abs/2205.12466v1
- Date: Wed, 25 May 2022 03:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 14:33:23.955745
- Title: Eye-gaze-guided Vision Transformer for Rectifying Shortcut Learning
- Title(参考訳): ショートカット学習のための視線誘導型視覚変換器
- Authors: Chong Ma, Lin Zhao, Yuzhong Chen, Lu Zhang, Zhenxiang Xiao, Haixing
Dai, David Liu, Zihao Wu, Zhengliang Liu, Sheng Wang, Jiaxing Gao, Changhe
Li, Xi Jiang, Tuo Zhang, Qian Wang, Dinggang Shen, Dajiang Zhu, Tianming Liu
- Abstract要約: 我々は、深層ニューラルネットワークのトレーニングに、人間の専門家の知性とドメイン知識を注入することを提案する。
医用画像データに制限のある診断のための新しい視線誘導型視覚変換器(EG-ViT)を提案する。
- 参考スコア(独自算出の注目度): 42.674679049746175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning harmful shortcuts such as spurious correlations and biases prevents
deep neural networks from learning the meaningful and useful representations,
thus jeopardizing the generalizability and interpretability of the learned
representation. The situation becomes even more serious in medical imaging,
where the clinical data (e.g., MR images with pathology) are limited and scarce
while the reliability, generalizability and transparency of the learned model
are highly required. To address this problem, we propose to infuse human
experts' intelligence and domain knowledge into the training of deep neural
networks. The core idea is that we infuse the visual attention information from
expert radiologists to proactively guide the deep model to focus on regions
with potential pathology and avoid being trapped in learning harmful shortcuts.
To do so, we propose a novel eye-gaze-guided vision transformer (EG-ViT) for
diagnosis with limited medical image data. We mask the input image patches that
are out of the radiologists' interest and add an additional residual connection
in the last encoder layer of EG-ViT to maintain the correlations of all
patches. The experiments on two public datasets of INbreast and SIIM-ACR
demonstrate our EG-ViT model can effectively learn/transfer experts' domain
knowledge and achieve much better performance than baselines. Meanwhile, it
successfully rectifies the harmful shortcut learning and significantly improves
the EG-ViT model's interpretability. In general, EG-ViT takes the advantages of
both human expert's prior knowledge and the power of deep neural networks. This
work opens new avenues for advancing current artificial intelligence paradigms
by infusing human intelligence.
- Abstract(参考訳): 急激な相関やバイアスなどの有害なショートカットの学習は、ディープニューラルネットワークが有意義で有用な表現を学ぶことを妨げ、学習された表現の一般化性と解釈性を阻害する。
臨床データ(例えば、病理を伴うmr画像)が制限され不足する一方、学習モデルの信頼性、一般化性、透明性が要求される医療画像では、状況はさらに深刻になる。
この問題に対処するために、深層ニューラルネットワークのトレーニングに人間の専門家の知性とドメイン知識を注入することを提案する。
中心となるアイデアは、専門家の放射線科医からの視覚的注意情報を注入して、深層モデルに積極的に、潜在的な病理学のある領域に集中させ、有害な近道を学ぶことを避ける、というものだ。
そこで本研究では,医用画像データに制限のある診断のための新しい眼迷路誘導型視覚変換器(EG-ViT)を提案する。
放射線科医が関心のない入力画像パッチをマスクし、eg-vitの最後のエンコーダ層に余分なコネクションを追加して、すべてのパッチの相関を維持する。
InbreastとSIIM-ACRの2つの公開データセットに対する実験は、EG-ViTモデルが専門家のドメイン知識を効果的に学習し、伝達し、ベースラインよりもはるかに優れたパフォーマンスを達成することを示す。
一方、有害なショートカット学習の修正に成功し、EG-ViTモデルの解釈可能性を大幅に改善する。
一般的に、EG-ViTは人間の専門知識とディープニューラルネットワークのパワーの両方の利点を生かしている。
この研究は、現在の人工知能パラダイムを進めるための新たな道を開く。
関連論文リスト
- Adversarial Neural Networks in Medical Imaging Advancements and Challenges in Semantic Segmentation [6.88255677115486]
人工知能(AI)の最近の進歩は、医療画像のパラダイムシフトを引き起こしている。
本稿では,脳画像のセマンティックセグメンテーションへの深層学習(AIの主分野)の統合を体系的に検討する。
敵対的ニューラルネットワークは、自動化するだけでなく、セマンティックセグメンテーションプロセスを洗練する、新しいAIアプローチである。
論文 参考訳(メタデータ) (2024-10-17T00:05:05Z) - Gaze-directed Vision GNN for Mitigating Shortcut Learning in Medical Image [6.31072075551707]
GD-ViG(GD-ViG)と呼ばれる新しい視線指向ビジョンGNNを提案し,放射線科医の視覚パターンを専門知識として活用する。
2つの公開医療画像データセットの実験は、GD-ViGが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2024-06-20T07:16:41Z) - Towards Generalization in Subitizing with Neuro-Symbolic Loss using
Holographic Reduced Representations [49.22640185566807]
CogSci研究で使用される適応ツールは、CNNとViTのサブティナイズ一般化を改善することができることを示す。
学習におけるこの神経-記号的アプローチが,CNNやVTのサブティナイズ能力にどのように影響するかを検討する。
HRRに基づく損失が改善する一方の軸を除いて、ほとんどの点において、サブタイズにおいてViTはCNNと比較して著しく低下することがわかった。
論文 参考訳(メタデータ) (2023-12-23T17:54:03Z) - Evaluating the structure of cognitive tasks with transfer learning [67.22168759751541]
本研究では,脳波復号処理における深層学習表現の伝達可能性について検討した。
最近リリースされた2つのEEGデータセット上で、最先端デコードモデルを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2023-07-28T14:51:09Z) - Improving Clinician Performance in Classification of EEG Patterns on the Ictal-Interictal-Injury Continuum using Interpretable Machine Learning [15.548202338334615]
集中治療室(ICUs)では、重度の脳損傷を防ぐために、重度疾患のある患者は脳波(EEGs)で監視される。
ブラックボックスのディープラーニングモデルは信頼できない、トラブルシューティングが難しい、現実世界のアプリケーションでは説明責任が欠如している。
本稿では,有害脳波パターンの存在を予測する新しい解釈可能な深層学習モデルを提案する。
論文 参考訳(メタデータ) (2022-11-09T21:33:40Z) - Adapting Brain-Like Neural Networks for Modeling Cortical Visual
Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。
現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。
我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-09-27T17:33:19Z) - Visual Interpretable and Explainable Deep Learning Models for Brain
Tumor MRI and COVID-19 Chest X-ray Images [0.0]
我々は、ディープニューラルネットワークが医療画像をどのように分析するかを照らすための属性手法を評価する。
我々は近年の深層畳み込みニューラルネットワークモデルによる脳腫瘍MRIと新型コロナウイルス胸部X線データセットからの予測を属性とした。
論文 参考訳(メタデータ) (2022-08-01T16:05:14Z) - Rectify ViT Shortcut Learning by Visual Saliency [40.55418820114868]
ショートカット学習は一般的だが、ディープラーニングモデルには有害である。
本研究では,ショートカット学習の精度向上を目的とした,新規かつ効果的なサリエンシ誘導型視覚変換器(SGT)モデルを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:54:07Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。