論文の概要: Revisiting Lexicon Evaluation in Unsupervised Word Discovery
- arxiv url: http://arxiv.org/abs/2606.06183v1
- Date: Thu, 04 Jun 2026 13:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.834252
- Title: Revisiting Lexicon Evaluation in Unsupervised Word Discovery
- Title(参考訳): 教師なし単語発見における語彙評価の再検討
- Authors: Simon Malan, Danel Slabbert, Herman Kamper,
- Abstract要約: 一般的なメートル法、正規化された編集距離は、各クラスタで発見された単位間の音素編集距離を平均化する。
我々は,この指標が大規模クラスタの品質に固有の偏りがあることを示し,公正な評価を阻害することを示した。
これらの欠点に対処する2つの指標を提案する。クラスタ内の一貫性を評価する際のクラスタサイズを計測する修正されたメトリックと、クラスタにまたがる真の単語をどのように分散するかを評価する逆メトリックである。
- 参考スコア(独自算出の注目度): 15.386356718833555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building a lexicon from discovered word-like units is a central goal in zero-resource speech processing. But do our evaluations provide a trustworthy indication of lexicon quality? A common metric, normalized edit distance, averages the phoneme edit distances between discovered units in each cluster. We show that this metric has an inherent bias toward the quality of large clusters, inhibiting fair evaluation. Moreover, it ignores how well true classes are distributed across clusters. Based on established theory in clustering literature, we propose two metrics that address these shortcomings: a modified metric that weighs cluster size when assessing within-cluster consistency, and an inverse metric that assesses how true words are spread across clusters. Through experiments on synthetic and real-world lexicons, we demonstrate that combined, these metrics are: (1) more closely correlated with how similar a lexicon is to the ground-truth distribution, and (2) more robust to biases that skew lexicon evaluations.
- Abstract(参考訳): 単語のような単位から辞書を構築することは、ゼロリソース音声処理における中心的な目標である。
しかし、我々の評価は、レキシコンの品質の信頼できる指標を提供するだろうか?
一般的なメートル法、正規化された編集距離は、各クラスタで発見された単位間の音素編集距離を平均化する。
我々は,この指標が大規模クラスタの品質に固有の偏りがあることを示し,公正な評価を阻害することを示した。
さらに、真のクラスがクラスタ間でいかにうまく分散されているかを無視する。
クラスタリング文学における確立された理論に基づいて,クラスタ内の一貫性を評価する際のクラスタサイズを計測する修正されたメトリックと,クラスタにまたがる真の単語の広がりを評価する逆メトリックという,これらの欠点に対処する2つの指標を提案する。
合成および実世界のレキシコンに関する実験を通じて、これらのメトリクスは、(1)レキシコンが基底構造分布とどのように類似しているかと、(2)レキシコンの評価を歪ませるバイアスとより強い相関関係があることを実証した。
関連論文リスト
- Unsupervised lexicon learning from speech is limited by representations rather than clustering [15.386356718833555]
ゼロソースの単語セグメンテーションとクラスタリングシステムは、テキストラベルにアクセスすることなく、単語のような単位に音声をトークン化することを目的としている。
単語セグメントの表現によって性能が制限されるのか、あるいはそれらを単語のようなタイプに分類するクラスタリング手法によって性能が制限されるのかを問う。
我々は、英語とマンダリンデータに基づく様々なクラスタリング手法(K平均、階層、グラフベース)と、様々な自己教師付き音声特徴を組み合わせる。
論文 参考訳(メタデータ) (2025-10-10T10:12:11Z) - Ensemble of classifiers for speech evaluation [0.0]
本稿では,医学における音声評価の問題を解決するために,バイナリ分類器のアンサンブルを適用しようとする試みについて述べる。
音節の発音品質の定量的および専門的な評価に基づいてデータセットを作成した。
論文 参考訳(メタデータ) (2024-12-29T17:28:32Z) - Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - KULCQ: An Unsupervised Keyword-based Utterance Level Clustering Quality Metric [0.5671051073036456]
キーワードベースのUtterance Level Clustering Quality (KULCQ)は、キーワード分析を利用してクラスタリングの品質を評価する教師なしメトリクスである。
その結果、KULCQは、幾何学的クラスタリング原理との整合性を保ちながら、会話データのセマンティックな関係をよりよく捉えていることがわかった。
論文 参考訳(メタデータ) (2024-11-15T00:21:02Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - Pointwise Metrics for Clustering Evaluation [0.0]
本稿では、2つのクラスタリングの類似性を特徴付けるためのメトリクスの集合である、ポイントワイズクラスタリングメトリクスを定義する。
計量の定義は標準集合論の概念に基づいており、理解し易い。
メトリクスを個々のアイテム、クラスタ、任意のアイテムのスライス、全体的なクラスタリングに割り当てることが可能です。
論文 参考訳(メタデータ) (2024-05-16T19:49:35Z) - Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion [78.76867266561537]
評価プロセスは、予測された真理のカテゴリと基底的真理のカテゴリの類似性を考慮せずに、クローズドセットのメトリクスに大きく依存している。
この問題に対処するため、まず2つのカテゴリー語間の11の類似度の測定を行った。
我々は,3つのオープン語彙セグメンテーションタスクに適した,オープンmIoU,オープンAP,オープンPQという新しい評価指標を設計した。
論文 参考訳(メタデータ) (2023-11-06T18:59:01Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。