論文の概要: Z-Scores: A Metric for Linguistically Assessing Disfluency Removal
- arxiv url: http://arxiv.org/abs/2509.20319v1
- Date: Wed, 24 Sep 2025 17:02:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.914536
- Title: Z-Scores: A Metric for Linguistically Assessing Disfluency Removal
- Title(参考訳): Zスコア: 言語学的に拡散除去を評価する尺度
- Authors: Maria Teleki, Sai Janjur, Haoran Liu, Oliver Grabner, Ketan Verma, Thomas Docog, Xiangjue Dong, Lingfeng Shi, Cong Wang, Stephanie Birkelbach, Jason Kim, Yin Zhang, James Caverlee,
- Abstract要約: Zスコア(Z-Scores)は、異なる不フルエンシタイプにまたがるシステムの振る舞いを分類する、言語学的に座屈した評価指標である。
我々の決定論的アライメントモジュールは、単語レベルのメトリクスが曖昧であるような体系的な弱点を明らかにすることができる。
- 参考スコア(独自算出の注目度): 27.083825614818135
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating disfluency removal in speech requires more than aggregate token-level scores. Traditional word-based metrics such as precision, recall, and F1 (E-Scores) capture overall performance but cannot reveal why models succeed or fail. We introduce Z-Scores, a span-level linguistically-grounded evaluation metric that categorizes system behavior across distinct disfluency types (EDITED, INTJ, PRN). Our deterministic alignment module enables robust mapping between generated text and disfluent transcripts, allowing Z-Scores to expose systematic weaknesses that word-level metrics obscure. By providing category-specific diagnostics, Z-Scores enable researchers to identify model failure modes and design targeted interventions -- such as tailored prompts or data augmentation -- yielding measurable performance improvements. A case study with LLMs shows that Z-Scores uncover challenges with INTJ and PRN disfluencies hidden in aggregate F1, directly informing model refinement strategies.
- Abstract(参考訳): 音声における拡散除去の評価には、トークンレベルスコア以上のものが必要である。
精度、リコール、F1(Eスコア)といった従来の単語ベースのメトリクスは、全体的なパフォーマンスをキャプチャするが、なぜモデルが成功するか、失敗するかを明らかにすることはできない。
Z-Scoresは,異なる拡散型 (EDITED, INTJ, PRN) にまたがってシステム動作を分類する言語学的基盤評価指標である。
我々の決定論的アライメントモジュールは、生成されたテキストと不整形テキスト間のロバストなマッピングを可能にし、Zスコアが単語レベルのメトリクスを曖昧にするような体系的な弱点を明らかにすることができる。
カテゴリ固有の診断を提供することで、Z-Scoresはモデル障害モードを特定し、適切なプロンプトやデータ拡張など、ターゲットとする介入を設計することで、測定可能なパフォーマンス改善を実現する。
LLMを用いたケーススタディでは、Z-Scoresは、集合F1に隠されたINTJとPRNの分散による課題を明らかにし、モデル精錬戦略を直接実行している。
関連論文リスト
- DRES: Benchmarking LLMs for Disfluency Removal [27.083825614818135]
um"、"uh"、インタージェクション、括弧、編集されたステートメントなどの分散は、音声駆動システムにおいて永続的な課題である。
制御されたテキストレベルのベンチマークである拡散除去評価スイートは、このタスクに対して再現可能なセマンティックアッパーバウンドを確立する。
DRESは、人間の注釈付きSwitchboard transcriptの上に構築され、ASRエラーからの拡散除去と音響的変動を分離する。
論文 参考訳(メタデータ) (2025-09-24T17:08:12Z) - Forget What You Know about LLMs Evaluations -- LLMs are Like a Chameleon [12.13060272830352]
大規模言語モデル(LLM)は、しばしば公開ベンチマークで優れているように見える。
これらの高いスコアは、真の言語理解よりもデータセット固有のサーフェスキューへの過度な依存を隠蔽する可能性がある。
本稿では,ベンチマークプロンプトを歪ませるメタ評価フレームワークであるChameleon Benchmark Overfit Detector (C-BOD)を紹介する。
論文 参考訳(メタデータ) (2025-02-11T10:43:36Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。