論文の概要: Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems
- arxiv url: http://arxiv.org/abs/2402.19443v1
- Date: Thu, 29 Feb 2024 18:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:27:28.073377
- Title: Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems
- Title(参考訳): 音声認識システムのニューラルベース音響モデルに符号化された情報探索
- Authors: Quentin Raymondaud, Mickael Rouvier, Richard Dufour
- Abstract要約: 本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
- 参考スコア(独自算出の注目度): 7.207019635697126
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning architectures have made significant progress in terms of
performance in many research areas. The automatic speech recognition (ASR)
field has thus benefited from these scientific and technological advances,
particularly for acoustic modeling, now integrating deep neural network
architectures. However, these performance gains have translated into increased
complexity regarding the information learned and conveyed through these
black-box architectures. Following many researches in neural networks
interpretability, we propose in this article a protocol that aims to determine
which and where information is located in an ASR acoustic model (AM). To do so,
we propose to evaluate AM performance on a determined set of tasks using
intermediate representations (here, at different layer levels). Regarding the
performance variation and targeted tasks, we can emit hypothesis about which
information is enhanced or perturbed at different architecture steps.
Experiments are performed on both speaker verification, acoustic environment
classification, gender classification, tempo-distortion detection systems and
speech sentiment/emotion identification. Analysis showed that neural-based AMs
hold heterogeneous information that seems surprisingly uncorrelated with
phoneme recognition, such as emotion, sentiment or speaker identity. The
low-level hidden layers globally appears useful for the structuring of
information while the upper ones would tend to delete useless information for
phoneme recognition.
- Abstract(参考訳): ディープラーニングアーキテクチャは、多くの研究領域でパフォーマンス面で大きな進歩を遂げている。
したがって、自動音声認識(ASR)分野は、これらの科学的および技術的進歩、特に音響モデリングにおいて、ディープニューラルネットワークアーキテクチャの統合の恩恵を受けている。
しかし、これらのパフォーマンス向上は、これらのブラックボックスアーキテクチャを通じて学習および伝達される情報に関する複雑さを増大させる。
本稿では、ニューラルネットワークの解釈可能性に関する多くの研究に続いて、asr音響モデル(am)における情報の位置と位置を決定するプロトコルを提案する。
そこで我々は, 中間表現(以下, 異なる層レベルで)を用いて, 決定されたタスク群におけるam性能を評価することを提案する。
性能の変動や目標とするタスクに関して、異なるアーキテクチャのステップでどの情報が強化されるか、あるいは摂動されるかという仮説を生成できる。
話者検証, 音響環境分類, 性別分類, テンポ歪検出システム, および音声の感情・感情識別について実験を行った。
分析の結果、神経ベースのamsは感情、感情、話者のアイデンティティといった音素認識とは驚くほど無関係な異種情報を持っていることがわかった。
低レベルの隠蔽層は情報の構造化に有用であり、上位層は音素認識のための無駄な情報を削除する傾向にある。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Deep Neural Networks for Automatic Speaker Recognition Do Not Learn
Supra-Segmental Temporal Features [2.724035499453558]
本稿では,話者認識のための最先端ニューラルネットワークの性能が,SSTのモデル化によってどの程度説明できるかを定量化するための新しいテストを提案し,適用する。
話者認識のための様々なCNNおよびRNNベースのニューラルネットワークアーキテクチャは、強制してもSSTを十分な程度にモデル化していない。
論文 参考訳(メタデータ) (2023-11-01T12:45:31Z) - Insights on Neural Representations for End-to-End Speech Recognition [28.833851817220616]
エンドツーエンド自動音声認識(ASR)モデルは、一般化された音声表現を学習することを目的としている。
相関解析手法を用いたネットワーク類似性の調査は、エンド・ツー・エンドASRモデルでは行われていない。
本稿では,CNN,LSTM,Transformerをベースとしたトレーニングにおいて,レイヤ間の内部ダイナミクスを解析し,検討する。
論文 参考訳(メタデータ) (2022-05-19T10:19:32Z) - Temporal Knowledge Distillation for On-device Audio Classification [2.2731658205414025]
本研究では,大規模モデルの注意重みに埋め込まれた時間的知識をデバイス上でのモデルに組み込むための新しい知識蒸留法を提案する。
提案手法は,様々なデバイスアーキテクチャにおける予測性能を向上させる。
論文 参考訳(メタデータ) (2021-10-27T02:29:54Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。