論文の概要: Understanding Character Recognition using Visual Explanations Derived
from the Human Visual System and Deep Networks
- arxiv url: http://arxiv.org/abs/2108.04558v1
- Date: Tue, 10 Aug 2021 10:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 14:20:53.893708
- Title: Understanding Character Recognition using Visual Explanations Derived
from the Human Visual System and Deep Networks
- Title(参考訳): 人間の視覚システムと深層ネットワークから得られた視覚的説明を用いた文字認識
- Authors: Chetan Ralekar, Shubham Choudhary, Tapan Kumar Gandhi, Santanu
Chaudhury
- Abstract要約: 深層ニューラルネットワークの情報収集戦略における合同性,あるいはその欠如について検討する。
深層学習モデルは、人間が正しく分類された文字に対して固定した文字の類似した領域を考慮に入れた。
本稿では、視線追跡実験から得られた視覚的固定マップを、モデルが関連する文字領域に焦点を合わせるための監督入力として用いることを提案する。
- 参考スコア(独自算出の注目度): 6.734853055176694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human observers engage in selective information uptake when classifying
visual patterns. The same is true of deep neural networks, which currently
constitute the best performing artificial vision systems. Our goal is to
examine the congruence, or lack thereof, in the information-gathering
strategies of the two systems. We have operationalized our investigation as a
character recognition task. We have used eye-tracking to assay the spatial
distribution of information hotspots for humans via fixation maps and an
activation mapping technique for obtaining analogous distributions for deep
networks through visualization maps. Qualitative comparison between
visualization maps and fixation maps reveals an interesting correlate of
congruence. The deep learning model considered similar regions in character,
which humans have fixated in the case of correctly classified characters. On
the other hand, when the focused regions are different for humans and deep
nets, the characters are typically misclassified by the latter. Hence, we
propose to use the visual fixation maps obtained from the eye-tracking
experiment as a supervisory input to align the model's focus on relevant
character regions. We find that such supervision improves the model's
performance significantly and does not require any additional parameters. This
approach has the potential to find applications in diverse domains such as
medical analysis and surveillance in which explainability helps to determine
system fidelity.
- Abstract(参考訳): 人間の観察者は視覚パターンを分類する際に選択的な情報を取り込む。
ディープニューラルネットワークは、現在最も高性能な人工視覚システムを構成している。
我々のゴールは、2つのシステムの情報収集戦略における相違、あるいはその欠如を調べることである。
我々は文字認識タスクとして調査を運用した。
我々は,情報ホットスポットの空間分布を固定マップを用いて計測するためにアイトラッキングと,可視化マップを用いて深層ネットワークの類似分布を得るためのアクティベーションマッピング技術を用いた。
可視化マップと固定マップの質的な比較は、合同の興味深い相関関係を示す。
ディープラーニングモデルは、人間が正しく分類された文字の場合固定した文字の類似領域を検討した。
一方,ヒトや深層網では焦点領域が異なる場合,後者では文字を誤分類することが多い。
そこで,アイトラッキング実験から得られた視覚固定マップを,モデルの焦点を関連する文字領域に合わせるための監督入力として用いることを提案する。
このような監視はモデルの性能を大幅に改善し、追加のパラメータを必要としないことがわかった。
このアプローチは、医療分析や監視といったさまざまな領域で応用され、説明可能性によってシステムの忠実性が決定される可能性がある。
関連論文リスト
- A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Comparing object recognition in humans and deep convolutional neural
networks -- An eye tracking study [7.222232547612573]
深部畳み込みニューラルネットワーク(DCNN)と腹側視覚経路は、大きなアーキテクチャと機能的な類似点を共有している。
人間の観察者(N = 45)と3人のフィードフォワードDCNNの比較を,視線追跡とサリエンシマップを用いて示す。
vNetと呼ばれる生物学的に妥当な受容野サイズを持つDCNNは、標準的なResNetアーキテクチャと対照的な人間の視聴行動と高い一致を示している。
論文 参考訳(メタデータ) (2021-07-30T23:32:05Z) - Passive attention in artificial neural networks predicts human visual
selectivity [8.50463394182796]
受動的注意法は人間の視覚的選択性の推定と大きく重なることを示す。
認識実験を用いて,これらの相関関係を因果操作で検証した。
この研究は、人間の視覚のモデルとして、主要なANNの生物学的および心理的妥当性を評価するための新しいアプローチに寄与する。
論文 参考訳(メタデータ) (2021-07-14T21:21:48Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Classifying Eye-Tracking Data Using Saliency Maps [8.524684315458245]
本稿では,視線追跡データの自動的,定量的分類のための視覚情報に基づく特徴抽出手法を提案する。
サリエンシの振幅、類似度、相違点を対応するアイフィクスマップと比較すると、視覚追跡データを識別するために識別的特徴を生成するために有効に活用される情報の余分な次元が得られる。
論文 参考訳(メタデータ) (2020-10-24T15:18:07Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z) - Supervision and Source Domain Impact on Representation Learning: A
Histopathology Case Study [6.762603053858596]
本研究では,表現学習領域におけるディープニューラルネットワークの性能と三重項損失について検討した。
病理画像の類似性や相違性について検討し,教師なし,半教師なし,教師付き学習との違いを比較した。
学習した表現を2つの異なる病理データセットに適用し,高い精度と一般化を実現した。
論文 参考訳(メタデータ) (2020-05-10T21:27:38Z) - Structured Landmark Detection via Topology-Adapting Deep Graph Learning [75.20602712947016]
解剖学的顔と医学的ランドマーク検出のための新しいトポロジ適応深層グラフ学習手法を提案する。
提案手法は局所像特徴と大域形状特徴の両方を利用するグラフ信号を構成する。
3つの公開顔画像データセット(WFLW、300W、COFW-68)と3つの現実世界のX線医学データセット(ケパロメトリ、ハンド、ペルビス)で実験を行った。
論文 参考訳(メタデータ) (2020-04-17T11:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。