論文の概要: SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation
- arxiv url: http://arxiv.org/abs/2604.20842v1
- Date: Wed, 22 Apr 2026 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.2785
- Title: SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation
- Title(参考訳): SpeechParaling-Bench: パラ言語対応音声生成のための総合ベンチマーク
- Authors: Ruohan Liu, Shukang Yin, Tao Wang, Dong Zhang, Weiji Zhuang, Shuhuai Ren, Ran He, Caifeng Shan, Chaoyou Fu,
- Abstract要約: SpeechParaling-Benchは、パラ言語対応音声生成のための総合的なベンチマークである。
既存のカバレッジを50未満から100以上のきめ細かい機能に拡張する。
微粒化制御、発声内変動、文脈認識適応の3つの課題に分けられる。
- 参考スコア(独自算出の注目度): 46.48800527703154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Paralinguistic cues are essential for natural human-computer interaction, yet their evaluation in Large Audio-Language Models (LALMs) remains limited by coarse feature coverage and the inherent subjectivity of assessment. To address these challenges, we introduce SpeechParaling-Bench, a comprehensive benchmark for paralinguistic-aware speech generation. It expands existing coverage from fewer than 50 to over 100 fine-grained features, supported by more than 1,000 English-Chinese parallel speech queries, and is organized into three progressively challenging tasks: fine-grained control, intra-utterance variation, and context-aware adaptation. To enable reliable evaluation, we further develop a pairwise comparison pipeline, in which candidate responses are evaluated against a fixed baseline by an LALM-based judge. By framing evaluation as relative preference rather than absolute scoring, this approach mitigates subjectivity and yields more stable and scalable assessments without costly human annotation. Extensive experiments reveal substantial limitations in current LALMs. Even leading proprietary models struggle with comprehensive static control and dynamic modulation of paralinguistic features, while failure to correctly interpret paralinguistic cues accounts for 43.3% of errors in situational dialogue. These findings underscore the need for more robust paralinguistic modeling toward human-aligned voice assistants.
- Abstract(参考訳): 自然な人間とコンピュータの相互作用にはパラ言語的手がかりが不可欠であるが、Large Audio-Language Models (LALM) における評価は、粗い特徴カバレッジとアセスメントの固有の主観性によって制限されている。
これらの課題に対処するために、パラ言語的音声認識のための総合ベンチマークであるSpeechParaling-Benchを紹介する。
既存のカバレッジを50未満から100以上のきめ細かい機能に拡張し、1000以上の英語と中国語の並列音声クエリがサポートし、より複雑な3つのタスク(きめ細かな制御、発話内変動、コンテキスト認識適応)に分けられる。
信頼性の高い評価を可能にするため,LALM ベースの判定器により候補応答を固定ベースラインに対して評価するペアワイズ比較パイプラインをさらに開発する。
絶対的な評価よりも相対的な選好として評価を行うことにより、本手法は主観性を軽減し、コストのかかる人的アノテーションを使わずにより安定的でスケーラブルな評価をもたらす。
大規模な実験は、現在のLALMにかなりの制限を課している。
主要なプロプライエタリモデルでさえ、パラ言語的特徴の包括的静的制御と動的変調に苦しむ一方で、状況対話における43.3%の誤りを正しく解釈できない。
これらの知見は、人間の音声アシスタントに対するより堅牢なパラ言語的モデリングの必要性を浮き彫りにした。
関連論文リスト
- Character Beyond Speech: Leveraging Role-Playing Evaluation in Audio Large Language Models via Reinforcement Learning [57.22705949022221]
RoleJudgeは、音声大言語モデルを利用して、音声と文字のアライメントを評価する評価フレームワークである。
連鎖推論アノテーションを付加した最初の音声ロールプレイング評価データセットであるRoleChatを紹介する。
論文 参考訳(メタデータ) (2026-04-15T12:39:03Z) - Koopman Regularized Deep Speech Disentanglement for Speaker Verification [6.659299099827954]
DKSD-AE(Deep Koopman Speech Disentanglement Autoencoder)
本稿では,複数ステップのKoopman演算子学習モジュールとインスタンス正規化を組み合わせた構造化オートエンコーダを提案する。
この結果から,コープマンに基づく時間モデルと実例正規化を組み合わせることで,話者中心の表現学習における効率的かつ原理的な解が得られることが示唆された。
論文 参考訳(メタデータ) (2026-03-05T17:30:18Z) - WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models [46.528618646773175]
WavBenchは、現実的な会話能力を評価するために設計されたベンチマークである。
複雑な問題解決、口語デリバリ、およびパラ言語的忠実性の共通点に関する洞察を提供する。
論文 参考訳(メタデータ) (2026-02-12T16:22:11Z) - Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs [8.918587474371321]
大規模音声言語モデル(LALM)は急速に進歩しているが、評価は依然として難しい。
LALMの効率的かつ包括的な評価フレームワークであるAU-Harnessを紹介する。
本システムでは,バッチ処理と並列実行を最適化することにより,既存のツールキットよりも最大127%の高速化を実現している。
論文 参考訳(メタデータ) (2025-09-09T15:30:40Z) - SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。