Fugu-MT 論文翻訳(概要): Speech foundation models on intelligibility prediction for hearing-impaired listeners

論文の概要: Speech foundation models on intelligibility prediction for hearing-impaired listeners

arxiv url: http://arxiv.org/abs/2401.14289v1
Date: Wed, 24 Jan 2024 18:26:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 13:55:40.316654
Title: Speech foundation models on intelligibility prediction for hearing-impaired listeners
Title（参考訳）: 聴覚障害者の知性予測に関する音声基礎モデル
Authors: Santiago Cuervo and Ricard Marxer
Abstract要約: 音声基礎モデル(SFM)は、多くの音声処理タスクでベンチマークされている。本稿では,10個のSFMの体系的評価を行い,その1つの応用について述べる。そこで本研究では,凍結したSFM上で特別な予測ヘッドを学習し,この問題に対処する簡単な手法を提案する。
参考スコア（独自算出の注目度）: 4.742307809368852
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech foundation models (SFMs) have been benchmarked on many speech processing tasks, often achieving state-of-the-art performance with minimal adaptation. However, the SFM paradigm has been significantly less explored for applications of interest to the speech perception community. In this paper we present a systematic evaluation of 10 SFMs on one such application: Speech intelligibility prediction. We focus on the non-intrusive setup of the Clarity Prediction Challenge 2 (CPC2), where the task is to predict the percentage of words correctly perceived by hearing-impaired listeners from speech-in-noise recordings. We propose a simple method that learns a lightweight specialized prediction head on top of frozen SFMs to approach the problem. Our results reveal statistically significant differences in performance across SFMs. Our method resulted in the winning submission in the CPC2, demonstrating its promise for speech perception applications.
Abstract（参考訳）: 音声基礎モデル(SFM)は、多くの音声処理タスクでベンチマークされ、最小限の適応で最先端のパフォーマンスを達成する。しかし、SFMパラダイムは、音声認識コミュニティへの関心の応用について、明らかに研究されていない。本稿では,その1つの応用における10個のSFMの体系的評価について述べる。本研究は,Clarity Prediction Challenge 2 (CPC2) の非侵襲的設定に着目し,聴覚障害者が音声音声録音から正しく知覚する単語の割合を予測する。そこで本研究では,凍結sfm上に軽量な特殊予測ヘッドを組み込んだ簡易な手法を提案する。以上の結果から,sfm間の性能の差は統計的に有意であった。提案手法はcpc2に勝利し,音声知覚応用への期待を示す結果となった。

関連論文リスト

OWSM-Biasing: Contextualizing Open Whisper-Style Speech Models for Automatic Speech Recognition with Dynamic Vocabulary [8.171886468845049]
本稿では、既存の文脈バイアス法とOpen Whisper-Style Speech Models (OWSM) v3.1を統合し、事前学習したパラメータを凍結する。実験の結果,提案手法は偏りの単語誤り率(B-WER)を11.6ポイント改善することがわかった。
論文参考訳（メタデータ） (2025-06-11T06:53:40Z)
Unveiling the Best Practices for Applying Speech Foundation Models to Speech Intelligibility Prediction for Hearing-Impaired People [0.0]
音声基礎モデル(SFM)は、聴覚障害者のための音声の可聴性予測(SIP-HI)など、様々な下流課題において強い性能を示した。 SIP-HIの性能に影響を及ぼす重要な設計要因を5つのSFMで同定する。その結果,従来の全層法とは対照的に,単一のエンコーダ層を選択することで,より良い結果が得られることがわかった。
論文参考訳（メタデータ） (2025-05-13T04:07:59Z)
Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文参考訳（メタデータ） (2024-12-14T12:58:15Z)
Two-stage Framework for Robust Speech Emotion Recognition Using Target Speaker Extraction in Human Speech Noise Conditions [25.490988931354185]
本稿では、ターゲット話者抽出法(TSE)と音声感情認識法(SER)を用いて、この問題に対する新たな2段階フレームワークを提案する。まず,TSEモデルを用いて混合話者の音声を抽出し,第2段階で抽出した音声をSER訓練に用いる。提案システムでは,TSE法を使わずに,ベースラインに比べて14.33%の非重み付き精度(UA)向上を実現している。
論文参考訳（メタデータ） (2024-09-29T07:04:50Z)
On the Evaluation of Speech Foundation Models for Spoken Language Understanding [87.52911510306011]
Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、オープンリソースやベンチマークの必要性に対処している。このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。どのSFMがこれらの複雑なSLUタスクに最も恩恵をもたらすか、そしてこれらのSFMを組み込む上で最も効果的なアプローチは何か?
論文参考訳（メタデータ） (2024-06-14T14:37:52Z)
TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition [29.756961194844717]
提案したTRNetは,一致した雑音環境と一致しない雑音環境の両方において,提案方式の堅牢性を大幅に向上させる。その結果,提案方式は,一致した環境と一致しない環境の両方において,提案方式のロバスト性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-04-19T16:09:17Z)
Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文参考訳（メタデータ） (2022-11-02T15:03:50Z)
MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。 2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文参考訳（メタデータ） (2022-04-07T09:13:44Z)
Audio-visual multi-channel speech separation, dereverberation and recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。 LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-04-05T04:16:03Z)
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文参考訳（メタデータ） (2021-10-28T20:39:02Z)
Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文参考訳（メタデータ） (2021-10-18T21:21:23Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。