論文の概要: Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models
- arxiv url: http://arxiv.org/abs/2005.08053v1
- Date: Sat, 16 May 2020 17:54:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:52:44.106851
- Title: Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models
- Title(参考訳): 注意モデルを用いた音質評価と異常位置推定の探索
- Authors: Qiang Huang and Thomas Hain
- Abstract要約: 本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
- 参考スコア(独自算出の注目度): 37.60722440434528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many applications of speech technology require more and more audio data.
Automatic assessment of the quality of the collected recordings is important to
ensure they meet the requirements of the related applications. However,
effective and high performing assessment remains a challenging task without a
clean reference. In this paper, a novel model for audio quality assessment is
proposed by jointly using bidirectional long short-term memory and an attention
mechanism. The former is to mimic a human auditory perception ability to learn
information from a recording, and the latter is to further discriminate
interferences from desired signals by highlighting target related features. To
evaluate our proposed approach, the TIMIT dataset is used and augmented by
mixing with various natural sounds. In our experiments, two tasks are explored.
The first task is to predict an utterance quality score, and the second is to
identify where an anomalous distortion takes place in a recording. The obtained
results show that the use of our proposed approach outperforms a strong
baseline method and gains about 5% improvements after being measured by three
metrics, Linear Correlation Coefficient and Spearman Rank Correlation
Coefficient, and F1.
- Abstract(参考訳): 音声技術の多くの応用は、より多くの音声データを必要とする。
収集した記録の質を自動評価することは,関連アプリケーションの要件を満たすために重要である。
しかし、効果的なハイパフォーマンス評価は、クリーンな参照なしでは難しい課題である。
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶための人間の聴覚知覚能力を模倣し、後者は、目標に関する特徴を強調することにより、所望の信号からの干渉をさらに判別する。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
実験では2つの課題について検討した。
第1の課題は発話品質スコアを予測し、第2の課題は記録中の異常な歪みが発生する場所を特定することである。
その結果,提案手法は,線形相関係数とスピアマンランク相関係数,F1の3指標で測定した結果,強いベースライン法より優れ,約5%の改善が得られた。
関連論文リスト
- Exploring Pathological Speech Quality Assessment with ASR-Powered Wav2Vec2 in Data-Scarce Context [7.567181073057191]
本稿では,データ不足にもかかわらずセグメントではなく,音声レベルで学習する手法を提案する。
その結果, ASR に基づく Wav2Vec2 モデルが最高の結果をもたらし, ASR と音声品質評価との間に強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2024-03-29T13:59:34Z) - A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - Lightly Weighted Automatic Audio Parameter Extraction for the Quality
Assessment of Consensus Auditory-Perceptual Evaluation of Voice [18.8222742272435]
提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。
その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-11-27T07:19:22Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Objective hearing threshold identification from auditory brainstem
response measurements using supervised and self-supervised approaches [1.0627340704073347]
平均ABR生データから聴力閾値の自動同定を行う2つの手法を開発し比較する。
両モデルが正常に動作し、人間の閾値検出より優れ、高速で信頼性が高く、偏りのない聴力閾値検出と品質制御に適していることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:24:31Z) - Comparing Acoustic-based Approaches for Alzheimer's Disease Detection [8.360862198568967]
近年のADReSSoチャレンジデータセットにおける音声からのAD検出のための3つのアプローチの性能と一般化性について検討した。
機能ベースのアプローチは精度が高いが、埋め込みと機能の組み合わせによる分類アプローチは、複数のパフォーマンス指標でより高い、よりバランスの取れたパフォーマンスを証明している。
論文 参考訳(メタデータ) (2021-06-03T02:44:40Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。