論文の概要: On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2601.06329v1
- Date: Fri, 09 Jan 2026 22:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.753422
- Title: On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation
- Title(参考訳): 音声言語モデル評価におけるグローバルトークンの難易度について
- Authors: Jeff Chan-Jan Sju, Liang-Hsuan Tseng, Yi-Cheng Lin, Yen-Chun Kuo, Ju-Chieh Chou, Kai-Wei Chang, Hung-yi Lee, Carlos Busso,
- Abstract要約: 大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。
本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
- 参考スコア(独自算出の注目度): 88.77441715819366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative spoken language models pretrained on large-scale raw audio can continue a speech prompt with appropriate content while preserving attributes like speaker and emotion, serving as foundation models for spoken dialogue. In prior literature, these models are often evaluated using ``global token perplexity'', which directly applies the text perplexity formulation to speech tokens. However, this practice overlooks fundamental differences between speech and text modalities, possibly leading to an underestimation of the speech characteristics. In this work, we propose a variety of likelihood- and generative-based evaluation methods that serve in place of naive global token perplexity. We demonstrate that the proposed evaluations more faithfully reflect perceived generation quality, as evidenced by stronger correlations with human-rated mean opinion scores (MOS). When assessed under the new metrics, the relative performance landscape of spoken language models is reshaped, revealing a significantly reduced gap between the best-performing model and the human topline. Together, these results suggest that appropriate evaluation is critical for accurately assessing progress in spoken language modeling.
- Abstract(参考訳): 大規模生音声で事前訓練された生成音声言語モデルは、話者や感情などの属性を保持しながら、適切な内容の音声プロンプトを継続することができ、音声対話の基礎モデルとして機能する。
従来の文献では、これらのモデルは 'global token perplexity'' を用いて評価されることが多かった。
しかし、このプラクティスは、音声とテキストのモダリティの根本的な違いを見落とし、おそらくは音声の特徴を過小評価する。
本研究では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
提案した評価は,人格評価平均世論スコア(MOS)との相関が強く,知覚された世代品質をより忠実に反映していることを示す。
新しい尺度で評価すると、音声言語モデルの相対的なパフォーマンスのランドスケープが再形成され、最高のパフォーマンスモデルと人間のトポラインとのギャップが大幅に減少することが明らかになった。
これらの結果は,音声言語モデリングの進捗を正確に評価する上で,適切な評価が重要であることを示唆している。
関連論文リスト
- Speech-DRAME: A Framework for Human-Aligned Benchmarks in Speech Role-Play [68.54773980519457]
Speech-DRAMEは3つのレベルで貢献する統合フレームワークである。
音声ロールプレイを評価するための、最初の包括的で再現可能な基盤を提供する。
論文 参考訳(メタデータ) (2025-11-03T06:12:40Z) - SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models [25.683827726880594]
EmphAssessは,音声合成モデルの韻律強調を符号化し再現する能力を評価するためのベンチマークである。
音声合成と音声合成の2つの課題に適用する。
どちらの場合も、ベンチマークは、モデルが音声入力の強調を符号化し、出力で正確に再現する能力を評価する。
評価パイプラインの一部として、フレームや単語レベルで強調を分類する新しいモデルであるEmphaClassを紹介する。
論文 参考訳(メタデータ) (2023-12-21T17:47:33Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Evaluating Models of Robust Word Recognition with Serial Reproduction [8.17947290421835]
広範囲確率的生成言語モデルと人間の言語的期待を捉える能力の比較を行った。
先行した言語的文脈の抽象表現を利用するこれらのモデルは、連続再生の過程で人々が行った変化を最もよく予測する。
論文 参考訳(メタデータ) (2021-01-24T20:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。