論文の概要: NV-Bench: Benchmark of Nonverbal Vocalization Synthesis for Expressive Text-to-Speech Generation
- arxiv url: http://arxiv.org/abs/2603.15352v1
- Date: Mon, 16 Mar 2026 14:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.482813
- Title: NV-Bench: Benchmark of Nonverbal Vocalization Synthesis for Expressive Text-to-Speech Generation
- Title(参考訳): NV-Bench:表現型テキスト音声生成のための非言語音声合成のベンチマーク
- Authors: Qinke Ni, Huan Liao, Dekun Chen, Yuxiang Wang, Zhizheng Wu,
- Abstract要約: NV-ベンチ(NV-Bench)は,NVを音響的アーティファクトではなく伝達作用として扱う機能分類に基礎を置いた最初のベンチマークである。
NV-Benchは、14のNVカテゴリでバランスの取れた1,651の多言語、単語内発話とペアの人間の参照音声からなる。
- 参考スコア(独自算出の注目度): 21.15492410480184
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While recent text-to-speech (TTS) systems increasingly integrate nonverbal vocalizations (NVs), their evaluations lack standardized metrics and reliable ground-truth references. To bridge this gap, we propose NV-Bench, the first benchmark grounded in a functional taxonomy that treats NVs as communicative acts rather than acoustic artifacts. NV-Bench comprises 1,651 multi-lingual, in-the-wild utterances with paired human reference audio, balanced across 14 NV categories. We introduce a dual-dimensional evaluation protocol: (1) Instruction Alignment, utilizing the proposed paralinguistic character error rate (PCER) to assess controllability, (2) Acoustic Fidelity, measuring the distributional gap to real recordings to assess acoustic realism. We evaluate diverse TTS models and develop two baselines. Experimental results demonstrate a strong correlation between our objective metrics and human perception, establishing NV-Bench as a standardized evaluation framework.
- Abstract(参考訳): 最近のTTS(text-to-speech)システムでは、非言語発声(NV)がますます統合されているが、その評価には標準化されたメトリクスと信頼性の高い地道参照が欠如している。
このギャップを埋めるために,NVを音響的アーティファクトではなく伝達作用として扱う機能分類学に基づく最初のベンチマークであるNV-Benchを提案する。
NV-Benchは、14のNVカテゴリでバランスの取れた1,651の多言語、単語内発話とペアの人間の参照音声からなる。
本研究では,(1)提案したパラ言語的文字誤り率(PCER)を用いた2次元評価プロトコルを導入する。(2)音響的忠実度,(2)実記録への分布ギャップの測定,および音響的リアリズムの評価を行う。
多様なTSモデルを評価し,2つのベースラインを構築した。
実験の結果,客観的指標と人間の知覚の相関が強く,NV-Benchを標準化された評価フレームワークとして確立した。
関連論文リスト
- AEQ-Bench: Measuring Empathy of Omni-Modal Large Models [55.722881748046895]
AEQ-Benchは、Omni-modal large model(OLM)の2つのコア共感能力を評価するための新しいベンチマークである。
AEQ-Benchは、文脈特異性と音声のトーンに異なる2つの新しい設定を取り入れている。
言語的・パラ言語的な指標の総合的な評価は、OLMが音声出力能力で訓練された場合、一般的にテキストのみの出力を持つモデルよりも優れていたことを示している。
論文 参考訳(メタデータ) (2026-01-15T15:39:50Z) - Towards Robust Assessment of Pathological Voices via Combined Low-Level Descriptors and Foundation Model Representations [39.31175048498422]
本研究では,声質評価ネットワーク (VOQANet) を提案する。
また,低レベル音声記述子であるjitter,shimmer,haronics-to-noise ratio(HNR)とSFMをハイブリッド表現に組み込んだVOQANet+を導入する。
以上の結果から,特に患者レベルでの母音による入力は,音声属性を抽出する発話の長大さに優れることがわかった。
論文 参考訳(メタデータ) (2025-05-27T15:48:17Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - The complementary roles of non-verbal cues for Robust Pronunciation
Assessment [10.15106073866792]
発音評価システムの研究は、非ネイティブ(L2)音声の音韻的・音声学的側面の活用に焦点を当てている。
本研究では,新しい発音評価フレームワークであるIntraVerbalPAを提案する。
論文 参考訳(メタデータ) (2023-09-14T14:18:07Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [31.59528815233441]
我々はMOSA-Netと呼ばれるクロスドメイン多目的音声アセスメントモデルを提案し、同時に複数の音声アセスメント指標を推定できる。
実験の結果, 音声品質(PESQ)予測の知覚評価において, MOSA-Net は線形相関係数 (LCC) を 0.026 (0.990 vs 0.964) と 0.012 (0.969 vs 0.957) で改善できることがわかった。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Private Language Model Adaptation for Speech Recognition [15.726921748859393]
音声モデルの適応は、サーバ側のプロキシトレーニングデータとユーザのローカルデバイスで受信した実際のデータとの相違を扱うために不可欠である。
本稿では,ニューラルネットワーク言語モデル(NNLM)を,音声認識に応用したプライベートデバイスに継続的に適用するための効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-28T00:15:43Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。