論文の概要: Echoes of Phonetics: Unveiling Relevant Acoustic Cues for ASR via Feature Attribution
- arxiv url: http://arxiv.org/abs/2506.02181v1
- Date: Mon, 02 Jun 2025 19:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.98973
- Title: Echoes of Phonetics: Unveiling Relevant Acoustic Cues for ASR via Feature Attribution
- Title(参考訳): 音声のエコー : 特徴属性によるASR関連音響キューの展開
- Authors: Dennis Fucci, Marco Gaido, Matteo Negri, Mauro Cettolo, Luisa Bentivogli,
- Abstract要約: 本稿では,現代コンフォーマーを用いたASRシステムにおいて,関連する音響的手がかりを特定するために,特徴属性手法を適用した。
発声音, 摩擦音, 母音を解析することにより, 特徴属性が時間領域と周波数領域の音響特性とどのように一致しているかを評価する。
- 参考スコア(独自算出の注目度): 19.32372029477596
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite significant advances in ASR, the specific acoustic cues models rely on remain unclear. Prior studies have examined such cues on a limited set of phonemes and outdated models. In this work, we apply a feature attribution technique to identify the relevant acoustic cues for a modern Conformer-based ASR system. By analyzing plosives, fricatives, and vowels, we assess how feature attributions align with their acoustic properties in the time and frequency domains, also essential for human speech perception. Our findings show that the ASR model relies on vowels' full time spans, particularly their first two formants, with greater saliency in male speech. It also better captures the spectral characteristics of sibilant fricatives than non-sibilants and prioritizes the release phase in plosives, especially burst characteristics. These insights enhance the interpretability of ASR models and highlight areas for future research to uncover potential gaps in model robustness.
- Abstract(参考訳): ASRの大幅な進歩にもかかわらず、特定の音響キューモデルは依然として不明なままである。
以前の研究では、限られた音素と時代遅れのモデルについてそのような方法が検討されてきた。
本研究では,現代コンフォーマーを用いたASRシステムにおいて,関連する音響的手がかりを特定するために,特徴帰属手法を適用した。
発声音, 摩擦音, 母音を解析することにより, 特徴属性が時間領域や周波数領域の音響特性とどのように一致しているかを評価する。
以上の結果から,ASRモデルは母音のフルタイムスパン,特に最初の2つのフォルマントに依拠し,男性発声におけるサリエンシが高いことが示唆された。
また, 可燃性摩擦剤のスペクトル特性を非可燃剤よりもよく把握し, 爆発物, 特にバースト特性の放出相を優先する。
これらの知見は、ASRモデルの解釈可能性を高め、モデル堅牢性の潜在的なギャップを明らかにするための将来の研究領域を強調する。
関連論文リスト
- Revisiting Acoustic Features for Robust ASR [25.687120601256787]
生物学的聴覚知覚に触発された音響特性を発達させる先行研究のアプローチを再考する。
本研究では、周波数マスキングと側方抑制の神経心理学的現象をシミュレートするために、周波数マスキング分光法(FreqMask)とガンマトン分光法(DoGSpec)の相違という2つの新しい音響特性を提案する。
論文 参考訳(メタデータ) (2024-09-24T18:58:23Z) - A Joint Spectro-Temporal Relational Thinking Based Acoustic Modeling Framework [10.354955365036181]
リレーショナル思考は人間の音声理解において重要な役割を担っているが、人工音声認識システムではまだ活用されていない。
本稿では,スペクトル時間的関係思考に基づく音響モデリングフレームワークを提案する。
このフレームワーク上に構築されたモデルは、TIMITデータセットよりも7.82%の音素認識タスクを改善した最先端システムを上回っている。
論文 参考訳(メタデータ) (2024-09-17T05:45:33Z) - Explaining Deep Learning Embeddings for Speech Emotion Recognition by Predicting Interpretable Acoustic Features [5.678610585849838]
事前学習されたディープラーニング埋め込みは、音声感情認識において手作り音響特性よりも優れた性能を示している。
明瞭な物理的意味を持つ音響的特徴とは異なり、これらの埋め込みは明確な解釈可能性を持たない。
本稿では,音声の感情空間における深層学習の埋め込みを説明するための改良型探索手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T19:18:56Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement [41.872384434583466]
周波数関連パラメータ,エネルギー・振幅関連パラメータ,スペクトルバランスパラメータ,時間的特徴の4種類の低レベル音響記述子の微分可能推定器を提案する。
音声強調における補助的目的としてTAPを加えることで、知覚的品質と知性を改善した音声が得られることを示す。
論文 参考訳(メタデータ) (2023-02-16T04:57:11Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Feature Replacement and Combination for Hybrid ASR Systems [47.74348197215634]
ハイブリッドASRシステムにおけるこれらのフロントエンドフレームワーク、すなわちwav2vecの有用性を検討する。
事前学習した特徴抽出器の展開に加えて,異なる特徴を持つ同一タスクで訓練された既存の音響モデル(AM)の活用方法について検討する。
我々は、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善を得た。
論文 参考訳(メタデータ) (2021-04-09T11:04:58Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。