論文の概要: Unsupervised lexicon learning from speech is limited by representations rather than clustering
- arxiv url: http://arxiv.org/abs/2510.09225v1
- Date: Fri, 10 Oct 2025 10:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.689522
- Title: Unsupervised lexicon learning from speech is limited by representations rather than clustering
- Title(参考訳): 音声からの教師なし語彙学習はクラスタリングではなく表現によって制限される
- Authors: Danel Adendorff, Simon Malan, Herman Kamper,
- Abstract要約: ゼロソースの単語セグメンテーションとクラスタリングシステムは、テキストラベルにアクセスすることなく、単語のような単位に音声をトークン化することを目的としている。
単語セグメントの表現によって性能が制限されるのか、あるいはそれらを単語のようなタイプに分類するクラスタリング手法によって性能が制限されるのかを問う。
我々は、英語とマンダリンデータに基づく様々なクラスタリング手法(K平均、階層、グラフベース)と、様々な自己教師付き音声特徴を組み合わせる。
- 参考スコア(独自算出の注目度): 15.386356718833555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-resource word segmentation and clustering systems aim to tokenise speech into word-like units without access to text labels. Despite progress, the induced lexicons are still far from perfect. In an idealised setting with gold word boundaries, we ask whether performance is limited by the representation of word segments, or by the clustering methods that group them into word-like types. We combine a range of self-supervised speech features (continuous/discrete, frame/word-level) with different clustering methods (K-means, hierarchical, graph-based) on English and Mandarin data. The best system uses graph clustering with dynamic time warping on continuous features. Faster alternatives use graph clustering with cosine distance on averaged continuous features or edit distance on discrete unit sequences. Through controlled experiments that isolate either the representations or the clustering method, we demonstrate that representation variability across segments of the same word type -- rather than clustering -- is the primary factor limiting performance.
- Abstract(参考訳): ゼロソースの単語セグメンテーションとクラスタリングシステムは、テキストラベルにアクセスすることなく、単語のような単位に音声をトークン化することを目的としている。
進歩にもかかわらず、誘導されたレキシコンはまだ完璧には程遠い。
金の単語境界を持つ理想的な設定では、単語セグメントの表現によって性能が制限されるか、あるいはそれらを単語のようなタイプに分類するクラスタリング手法によって性能が制限されるのかを問う。
我々は、英語とマンダリンのデータに基づいて、様々なクラスタリング手法(K平均、階層、グラフベース)と、多数の自己教師付き音声特徴(連続/離散、フレーム/ワードレベル)を組み合わせる。
最高のシステムは、継続的な機能に対する動的時間ワープを備えたグラフクラスタリングを使用する。
より高速な代替手段は、平均的な連続的な特徴に対して余弦距離を持つグラフクラスタリングを使用するか、離散単位列に対して距離を編集する。
表現とクラスタリングを分離する制御された実験を通して、クラスタリングではなく、同じ単語タイプのセグメント間の表現のばらつきが、パフォーマンスを制限する主要な要因であることを実証する。
関連論文リスト
- Should Top-Down Clustering Affect Boundaries in Unsupervised Word Discovery? [22.044042563954378]
ラベルのない音声を単語のような単位に分割し、それらをクラスタ化して語彙を生成するという問題について検討する。
トップダウン手法は、クラスタ化された単語からの情報を組み込んで境界選択を知らせる。
ES-KMeansによるトップダウンの影響は有益であることを示すが、多くの場合、単純なボトムアップ手法も同様に機能する。
論文 参考訳(メタデータ) (2025-07-25T12:19:16Z) - Moving Past Single Metrics: Exploring Short-Text Clustering Across Multiple Resolutions [0.0]
この研究は、3万の政治Twitterの伝記を含む、短いテキストのクラスタリングに焦点を当てている。
クラスタ解像度間の特定のクラスタの安定性を明らかにするために、比例安定性の指標が導入された。
結果は、データセットの性質を理解するための質問ツールを提供するために、Sankeyダイアグラムを使用して視覚化される。
論文 参考訳(メタデータ) (2025-02-24T10:17:09Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Unsupervised Visual Representation Learning by Online Constrained
K-Means [44.38989920488318]
クラスタ識別は、教師なし表現学習の効果的な前提課題である。
オンラインtextbfConstrained textbfK-mtextbfeans (textbfCoKe) を用いたクラスタリングに基づく新しいプリテキストタスクを提案する。
当社のオンライン割当て方式は,グローバルな最適化に近づくための理論的保証を持っている。
論文 参考訳(メタデータ) (2021-05-24T20:38:32Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。