論文の概要: Can We Trust Explainable AI Methods on ASR? An Evaluation on Phoneme
Recognition
- arxiv url: http://arxiv.org/abs/2305.18011v1
- Date: Mon, 29 May 2023 11:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 15:19:46.359414
- Title: Can We Trust Explainable AI Methods on ASR? An Evaluation on Phoneme
Recognition
- Title(参考訳): ASRで説明可能なAIメソッドを信頼できますか?
音素認識に関する一検討
- Authors: Xiaoliang Wu, Peter Bell, Ajitha Rajan
- Abstract要約: 深層学習に基づく音声認識(ASR)を説明するためにXAI技術を使うことに関心が持たれている。
画像分類領域である局所解釈可能なモデル非依存表現(LIME)からTIMITに基づく音素認識タスクの訓練モデルに適用する。
本稿では、時間分割音声セグメントに基づくLIMEの変種を見つけ、最も信頼性の高い説明を生成する。
- 参考スコア(独自算出の注目度): 9.810810252231812
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Explainable AI (XAI) techniques have been widely used to help explain and
understand the output of deep learning models in fields such as image
classification and Natural Language Processing. Interest in using XAI
techniques to explain deep learning-based automatic speech recognition (ASR) is
emerging. but there is not enough evidence on whether these explanations can be
trusted. To address this, we adapt a state-of-the-art XAI technique from the
image classification domain, Local Interpretable Model-Agnostic Explanations
(LIME), to a model trained for a TIMIT-based phoneme recognition task. This
simple task provides a controlled setting for evaluation while also providing
expert annotated ground truth to assess the quality of explanations. We find a
variant of LIME based on time partitioned audio segments, that we propose in
this paper, produces the most reliable explanations, containing the ground
truth 96% of the time in its top three audio segments.
- Abstract(参考訳): 説明可能なAI(XAI)技術は、画像分類や自然言語処理といった分野におけるディープラーニングモデルの出力の説明と理解に広く用いられている。
深層学習に基づく音声認識(ASR)を説明するためにXAI技術を使うことに関心が持たれている。
しかし これらの説明が信用できるかどうか 十分な証拠はありません
そこで我々は,画像分類領域であるLocal Interpretable Model-Agnostic Explanations (LIME) から,TIMITに基づく音素認識タスクのために訓練されたモデルに,最先端のXAI技術を適用する。
この簡単なタスクは、評価のための制御された設定を提供すると同時に、説明の質を評価するための専門家の注釈付き真実を提供する。
本稿では,本論文で提案する時間分割音声セグメントに基づくlimeの変種について,最上位3つの音声セグメントの96%の時間的真理を含む,最も信頼性の高い説明を生成する。
関連論文リスト
- Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - Scene Text Recognition Models Explainability Using Local Features [11.990881697492078]
Scene Text Recognition (STR) 説明可能性(Explainability)は、人間がモデルの予測の原因を理解する方法の研究である。
STRに関する最近のXAI文献は、単純な分析のみを提供しており、他のXAI手法を完全には探求していない。
具体的には、ディープラーニングモデルにおける入力データの重要な部分を説明する、属性ベースの手法と呼ばれるデータ説明可能性フレームワークについて研究する。
本研究では,局所的な説明,すなわち個々のキャラクタ予測説明を考慮に入れたSTRExpという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-14T10:01:52Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - Explanations for Automatic Speech Recognition [9.810810252231812]
音声フレームのサブセットとして、ASR転写の説明を提供する。
我々は,画像分類-統計的故障局所化(SFL)とCausalから既存の説明可能なAI技術を適用した。
提案手法は,3種類のASR,Google API,Sphinx,Deepspeechのベースラインモデル,およびCommonvoiceデータセットから得られた100のオーディオサンプルに対して,提案手法による説明の質を評価する。
論文 参考訳(メタデータ) (2023-02-27T11:09:19Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Visualizing Automatic Speech Recognition -- Means for a Better
Understanding? [0.1868368163807795]
我々は、画像認識からインポートし、オーディオデータを扱うのに適した属性法が、ASRの動作を明らかにするのにどう役立つかを示す。
ASRのエンドツーエンドモデルであるSpeech Deepをケーススタディとして、これらの手法が、入力のどの特徴が出力を決定するのに最も影響するかを可視化するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2022-02-01T13:35:08Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z) - Explainable Active Learning (XAL): An Empirical Study of How Local
Explanations Impact Annotator Experience [76.9910678786031]
本稿では、最近急増している説明可能なAI(XAI)のテクニックをアクティブラーニング環境に導入することにより、説明可能なアクティブラーニング(XAL)の新たなパラダイムを提案する。
本研究は,機械教育のインタフェースとしてのAI説明の利点として,信頼度校正を支援し,リッチな形式の教示フィードバックを可能にすること,モデル判断と認知作業負荷による潜在的な欠点を克服する効果を示す。
論文 参考訳(メタデータ) (2020-01-24T22:52:18Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。