論文の概要: Which Evaluation for Which Model? A Taxonomy for Speech Model Assessment
- arxiv url: http://arxiv.org/abs/2510.19509v1
- Date: Wed, 22 Oct 2025 12:04:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.754871
- Title: Which Evaluation for Which Model? A Taxonomy for Speech Model Assessment
- Title(参考訳): どのモデルを評価するか : 音声モデル評価のための分類学
- Authors: Maureen de Seyssel, Eeshan Gunesh Dhekane,
- Abstract要約: 音声基礎モデルは、最近、広範囲のタスクで顕著な機能を達成した。
異なるモデルは、音声処理の異なる側面で優れており、異なる評価プロトコルを必要とする。
本稿では,どのモデルに適切な評価を行うかという問題に対処する統合分類法を提案する。
- 参考スコア(独自算出の注目度): 3.6991820768985746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech foundation models have recently achieved remarkable capabilities across a wide range of tasks. However, their evaluation remains disjointed across tasks and model types. Different models excel at distinct aspects of speech processing and thus require different evaluation protocols. This paper proposes a unified taxonomy that addresses the question: Which evaluation is appropriate for which model? The taxonomy defines three orthogonal axes: the \textbf{evaluation aspect} being measured, the model capabilities required to attempt the task, and the task or protocol requirements needed to perform it. We classify a broad set of existing evaluations and benchmarks along these axes, spanning areas such as representation learning, speech generation, and interactive dialogue. By mapping each evaluation to the capabilities a model exposes (e.g., speech generation, real-time processing) and to its methodological demands (e.g., fine-tuning data, human judgment), the taxonomy provides a principled framework for aligning models with suitable evaluation methods. It also reveals systematic gaps, such as limited coverage of prosody, interaction, or reasoning, that highlight priorities for future benchmark design. Overall, this work offers a conceptual foundation and practical guide for selecting, interpreting, and extending evaluations of speech models.
- Abstract(参考訳): 音声基礎モデルは、最近、広範囲のタスクで顕著な機能を達成した。
しかし、それらの評価はタスクやモデルタイプ間で相容れないままである。
異なるモデルは、音声処理の異なる側面で優れており、異なる評価プロトコルを必要とする。
本稿では,どのモデルに適切な評価を行うかという問題に対処する統合分類法を提案する。
分類学では、3つの直交軸を定義している: \textbf{evaluation aspects} の測定、タスクを試すのに必要なモデル能力、それを実行するのに必要なタスクまたはプロトコル要件である。
我々は、これらの軸に沿って既存の評価とベンチマークを幅広く分類し、表現学習、音声生成、対話などの領域にまたがる。
各評価を、モデルが公開する能力(例えば、音声生成、リアルタイム処理)と、その方法論的要求(例えば、微調整データ、人間の判断)にマッピングすることにより、分類学は、モデルに適切な評価手法を合わせるための原則化された枠組みを提供する。
また、将来のベンチマーク設計の優先順位を強調する韻律、対話、推論の限られた範囲のような体系的なギャップも明らかにしている。
全体として、本研究は、音声モデルの選択、解釈、拡張のための概念的基礎と実践的ガイドを提供する。
関連論文リスト
- Adapting Vision-Language Models for Evaluating World Models [24.813041196394582]
データおよび計算制約下でのシミュレーション環境におけるロールアウトに対する視覚言語評価手法であるUNIVERSEを提案する。
本研究では,タスク形式,コンテキスト長,サンプリング戦略,データ構成を網羅した,完全,部分的,パラメータ効率の微調整を大規模に検討する。
その結果得られた統合評価器は、単一のチェックポイントを使用してタスク固有のベースラインのパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2025-06-22T09:53:28Z) - LLM Reading Tea Leaves: Automatically Evaluating Topic Models with Large Language Models [12.500091504010067]
トピックモデリングのための新しい評価手法であるWALM(Word Agreement with Language Model)を提案する。
異なる種類のトピックモデルを含む広範な実験により、WALMは人間の判断に合致することを示した。
論文 参考訳(メタデータ) (2024-06-13T11:19:50Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。