論文の概要: Gradient-Adjusted Neuron Activation Profiles for Comprehensive
Introspection of Convolutional Speech Recognition Models
- arxiv url: http://arxiv.org/abs/2002.08125v1
- Date: Wed, 19 Feb 2020 11:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:35:02.365850
- Title: Gradient-Adjusted Neuron Activation Profiles for Comprehensive
Introspection of Convolutional Speech Recognition Models
- Title(参考訳): 畳み込み音声認識モデルの包括的イントロスペクションのための勾配調整ニューロン活性化プロファイル
- Authors: Andreas Krug, Sebastian Stober
- Abstract要約: 我々は,Deep Neural Networksにおける特徴や表現を解釈する手段として,GradNAP(Gradient-adjusted Neuron Activation Profiles)を導入する。
GradNAPは、特定の入力のグループに対するANNの特徴的な応答であり、予測のためのニューロンの関連性を含んでいる。
ANNでデータがどのように処理されるかを知るためにGradNAPを利用する方法を示す。
- 参考スコア(独自算出の注目度): 1.6752182911522515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning based Automatic Speech Recognition (ASR) models are very
successful, but hard to interpret. To gain better understanding of how
Artificial Neural Networks (ANNs) accomplish their tasks, introspection methods
have been proposed. Adapting such techniques from computer vision to speech
recognition is not straight-forward, because speech data is more complex and
less interpretable than image data. In this work, we introduce
Gradient-adjusted Neuron Activation Profiles (GradNAPs) as means to interpret
features and representations in Deep Neural Networks. GradNAPs are
characteristic responses of ANNs to particular groups of inputs, which
incorporate the relevance of neurons for prediction. We show how to utilize
GradNAPs to gain insight about how data is processed in ANNs. This includes
different ways of visualizing features and clustering of GradNAPs to compare
embeddings of different groups of inputs in any layer of a given network. We
demonstrate our proposed techniques using a fully-convolutional ASR model.
- Abstract(参考訳): ディープラーニングに基づく自動音声認識(ASR)モデルは非常に成功しているが、解釈は困難である。
ニューラルネットワーク(ann)が課題をどのように達成するかをよりよく理解するために、イントロスペクション手法が提案されている。
音声データは画像データよりも複雑で解釈が難しいため、コンピュータビジョンから音声認識への適応は直線的ではない。
本研究では,Deep Neural Networksにおける特徴や表現を解釈する手段として,GradNAP(Gradient-Adjusted Neuron Activation Profiles)を導入する。
GradNAPは特定の入力のグループに対するANNの特徴的な応答であり、予測のためのニューロンの関連性を含んでいる。
ANNでデータがどのように処理されるかを知るためにGradNAPを利用する方法を示す。
これには、特定のネットワークの任意の層における異なる入力群の埋め込みを比較するために、機能可視化とgradnapのクラスタリングの異なる方法が含まれている。
完全畳み込みASRモデルを用いて提案手法を実証する。
関連論文リスト
- Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Graph Neural Networks Provably Benefit from Structural Information: A
Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。
本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文 参考訳(メタデータ) (2023-06-24T10:21:11Z) - SR-GNN: Spatial Relation-aware Graph Neural Network for Fine-Grained
Image Categorization [24.286426387100423]
本稿では,最も関連性の高い画像領域からコンテキスト認識機能を集約することで,微妙な変化を捉える手法を提案する。
我々のアプローチは、近年の自己注意とグラフニューラルネットワーク(GNN)の発展にインスパイアされている。
これは、認識精度のかなりの差で最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-05T19:43:15Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Visualizing Automatic Speech Recognition -- Means for a Better
Understanding? [0.1868368163807795]
我々は、画像認識からインポートし、オーディオデータを扱うのに適した属性法が、ASRの動作を明らかにするのにどう役立つかを示す。
ASRのエンドツーエンドモデルであるSpeech Deepをケーススタディとして、これらの手法が、入力のどの特徴が出力を決定するのに最も影響するかを可視化するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2022-02-01T13:35:08Z) - What do End-to-End Speech Models Learn about Speaker, Language and
Channel Information? A Layer-wise and Neuron-level Analysis [16.850888973106706]
本稿では,事前学習した音声モデルの探索フレームワークを用いたポストホック機能解析を行う。
話者認識や方言識別といった様々なタスクのために訓練された音声モデルの発話レベル表現を解析する。
i) チャネル情報と性別情報はネットワーク全体に分散され,i) 情報はタスクに関してニューロンで冗長に利用可能であり,iv) 弁証情報などの複雑な特性はタスク指向の事前学習ネットワークでのみ符号化される。
論文 参考訳(メタデータ) (2021-07-01T13:32:55Z) - Comparative evaluation of CNN architectures for Image Caption Generation [1.2183405753834562]
2つの人気のある画像キャプチャ生成フレームワークで17種類の畳み込みニューラルネットワークを評価した。
我々は、畳み込みニューラルネットワークのモデルの複雑さをパラメータ数で測定し、オブジェクト認識タスクにおけるモデルの精度は、必ずしも画像キャプション生成タスクの機能抽出に対する効果と相関するとは限らないことを観察する。
論文 参考訳(メタデータ) (2021-02-23T05:43:54Z) - Node2Seq: Towards Trainable Convolutions in Graph Neural Networks [59.378148590027735]
今回提案するグラフネットワーク層であるNode2Seqは,隣接ノードの重みを明示的に調整可能なノード埋め込みを学習する。
対象ノードに対して,当手法は注意メカニズムを介して隣接ノードをソートし,さらに1D畳み込みニューラルネットワーク(CNN)を用いて情報集約のための明示的な重み付けを行う。
また, 特徴学習のための非局所的情報を, 注意スコアに基づいて適応的に組み込むことを提案する。
論文 参考訳(メタデータ) (2021-01-06T03:05:37Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Deep Adaptive Semantic Logic (DASL): Compiling Declarative Knowledge
into Deep Neural Networks [11.622060073764944]
本稿では,深層ニューラルネットワークの自動生成のための新しいフレームワークであるDeep Adaptive Semantic Logic (DASL)を紹介する。
DASLは、データからの学習を改善するために、ユーザが提供する形式的な知識を取り入れている。
我々は,視覚的関係検出タスク上でDASLを評価し,コモンセンス知識の追加によってデータ不足時の性能が10.7%向上することが実証された。
論文 参考訳(メタデータ) (2020-03-16T17:37:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。