論文の概要: QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions
- arxiv url: http://arxiv.org/abs/2503.20290v1
- Date: Wed, 26 Mar 2025 07:32:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:21:50.665740
- Title: QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions
- Title(参考訳): QualiSpeech:自然言語推論と記述による音声品質評価データセット
- Authors: Siyin Wang, Wenyi Yu, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Yu Tsao, Junichi Yamagishi, Yuxuan Wang, Chao Zhang,
- Abstract要約: 包括的低レベル音声品質評価データセットであるQuariSpeechを紹介する。
また,聴覚大言語モデルの低レベル音声理解能力を評価するために,QuariSpeech Benchmarkを提案する。
- 参考スコア(独自算出の注目度): 45.61330781342431
- License:
- Abstract: This paper explores a novel perspective to speech quality assessment by leveraging natural language descriptions, offering richer, more nuanced insights than traditional numerical scoring methods. Natural language feedback provides instructive recommendations and detailed evaluations, yet existing datasets lack the comprehensive annotations needed for this approach. To bridge this gap, we introduce QualiSpeech, a comprehensive low-level speech quality assessment dataset encompassing 11 key aspects and detailed natural language comments that include reasoning and contextual insights. Additionally, we propose the QualiSpeech Benchmark to evaluate the low-level speech understanding capabilities of auditory large language models (LLMs). Experimental results demonstrate that finetuned auditory LLMs can reliably generate detailed descriptions of noise and distortion, effectively identifying their types and temporal characteristics. The results further highlight the potential for incorporating reasoning to enhance the accuracy and reliability of quality assessments. The dataset will be released at https://huggingface.co/datasets/tsinghua-ee/QualiSpeech.
- Abstract(参考訳): 本稿では,従来の数値スコアリング手法よりも,より豊かでニュアンスに富んだ洞察を提供する自然言語記述を活用することによって,音声品質評価の新しい視点を探求する。
自然言語フィードバックはインストラクティブなレコメンデーションと詳細な評価を提供するが、既存のデータセットにはこのアプローチに必要な包括的なアノテーションがない。
このギャップを埋めるために、我々はQuariSpeechを紹介した。QuariSpeechは、11つの重要な側面と、推論と文脈的洞察を含む詳細な自然言語コメントを含む、包括的な低レベル音声品質評価データセットである。
さらに,聴覚大言語モデル(LLM)の低レベル音声理解能力を評価するために,QuariSpeech Benchmarkを提案する。
実験結果から,音・歪みの詳細な記述を高精度に生成し,そのタイプや時間特性を効果的に同定できることが示唆された。
この結果は、品質評価の精度と信頼性を高めるために、推論を組み込むことの可能性をさらに強調する。
データセットはhttps://huggingface.co/datasets/tsinghua-ee/QualiSpeechでリリースされる。
関連論文リスト
- Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Adapting an ASR Foundation Model for Spoken Language Assessment [40.402050390096456]
正確で信頼性の高い音声言語評価システムの重要な部分は、基礎となるASRモデルである。
近年、Whisperのような大規模な事前訓練されたASRファンデーションモデルが利用可能になっている。
これらのモデルでは、出力の反響やためらう傾向にある。
ここでは、候補者が言ったことを正確に書き起こす必要がある。
論文 参考訳(メタデータ) (2023-07-13T16:01:58Z) - Investigating model performance in language identification: beyond
simple error statistics [28.128924654154087]
言語開発の専門家は、流動的で会話的なスピーチから言語を自動的に識別するツールを必要としている。
本研究では,言語特性の異なる個々の録音や音声単位に対して,多くの言語識別システムがどの程度機能するかを検討する。
論文 参考訳(メタデータ) (2023-05-30T10:32:53Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Deep Learning for Prominence Detection in Children's Read Speech [13.041607703862724]
子どもの読書記録のラベル付きデータセットを,話者に依存しない著名単語の検出のために検討する。
事前調整されたランダムフォレストアンサンブル予測器をRNNシーケンスに置き換え、潜在的なコンテキスト依存性を利用する。
深層学習を用いて、基本周波数、強度、スペクトル形状の低レベル音響輪郭から単語レベル特徴を得る。
論文 参考訳(メタデータ) (2021-04-12T14:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。