論文の概要: No Audiogram: Leveraging Existing Scores for Personalized Speech Intelligibility Prediction
- arxiv url: http://arxiv.org/abs/2506.02039v1
- Date: Sat, 31 May 2025 07:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.869817
- Title: No Audiogram: Leveraging Existing Scores for Personalized Speech Intelligibility Prediction
- Title(参考訳): No Audiogram:パーソナライズされた音声の信頼性予測のための既存のスコアを活用する
- Authors: Haoshuai Zhou, Changgeng Mo, Boxuan Cao, Linkai Li, Shan Xiang Wang,
- Abstract要約: 従来のアプローチは主にオーディオグラムに頼っていたが、これは本質的には聴取者の聴力閾値を純音で捉えているため正確性に制限されている。
本稿では,個人が持つ既存の知性データを活用して,その性能を推定する手法を提案する。
本研究は,パーソナライズされた音声のインテリジェンス予測のための新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized speech intelligibility prediction is challenging. Previous approaches have mainly relied on audiograms, which are inherently limited in accuracy as they only capture a listener's hearing threshold for pure tones. Rather than incorporating additional listener features, we propose a novel approach that leverages an individual's existing intelligibility data to predict their performance on new audio. We introduce the Support Sample-Based Intelligibility Prediction Network (SSIPNet), a deep learning model that leverages speech foundation models to build a high-dimensional representation of a listener's speech recognition ability from multiple support (audio, score) pairs, enabling accurate predictions for unseen audio. Results on the Clarity Prediction Challenge dataset show that, even with a small number of support (audio, score) pairs, our method outperforms audiogram-based predictions. Our work presents a new paradigm for personalized speech intelligibility prediction.
- Abstract(参考訳): パーソナライズされた音声のインテリジェンス予測は難しい。
従来のアプローチは主にオーディオグラムに頼っていたが、これは本質的には聴取者の聴力閾値を純音で捉えているため正確性に制限されている。
そこで本稿では,新たな聞き手機能を導入するのではなく,個人の既存の知性データを活用して,新たな音声の性能を予測する手法を提案する。
本稿では,複数のサポート(音声,スコア)ペアから聞き手の音声認識能力の高次元表現を構築するために,音声基礎モデルを活用した深層学習モデルであるSupport Sample-Based Intelligibility Prediction Network (SSIPNet)を紹介する。
Clarity Prediction Challengeデータセットの結果は、少数のサポート(オーディオ、スコア)ペアであっても、我々の手法はオーディオグラムベースの予測よりも優れていることを示している。
本研究は,パーソナライズされた音声のインテリジェンス予測のための新しいパラダイムを提案する。
関連論文リスト
- Non Intrusive Intelligibility Predictor for Hearing Impaired Individuals
using Self Supervised Speech Representations [21.237026538221404]
SQ評価の非侵襲的予測手法は、難聴者に対するインテリジェンス予測に拡張される。
自己教師付き表現は,非侵入予測モデルの入力特徴として有用であることがわかった。
論文 参考訳(メタデータ) (2023-07-25T11:42:52Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Replacing Human Audio with Synthetic Audio for On-device Unspoken
Punctuation Prediction [10.516452073178511]
本稿では,音響的特徴とテキスト的特徴を組み合わせた,英語のマルチモーダル・アンスポークな句読解予測システムを提案する。
本研究では,韻律を意識したテキスト音声合成システムを用いて生成した合成データにのみ依存することで,未知の句読点予測問題に対して,高価な人間の音声録音で訓練されたモデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-10-20T11:30:26Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。