論文の概要: Should Top-Down Clustering Affect Boundaries in Unsupervised Word Discovery?
- arxiv url: http://arxiv.org/abs/2507.19204v2
- Date: Mon, 28 Jul 2025 14:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:47.145491
- Title: Should Top-Down Clustering Affect Boundaries in Unsupervised Word Discovery?
- Title(参考訳): トップダウンクラスタリングは、教師なし単語発見における境界に影響を及ぼすか?
- Authors: Simon Malan, Benjamin van Niekerk, Herman Kamper,
- Abstract要約: ラベルのない音声を単語のような単位に分割し、それらをクラスタ化して語彙を生成するという問題について検討する。
トップダウン手法は、クラスタ化された単語からの情報を組み込んで境界選択を知らせる。
ES-KMeansによるトップダウンの影響は有益であることを示すが、多くの場合、単純なボトムアップ手法も同様に機能する。
- 参考スコア(独自算出の注目度): 22.044042563954378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the problem of segmenting unlabeled speech into word-like units and clustering these to create a lexicon. Prior work can be categorized into two frameworks. Bottom-up methods first determine boundaries and then cluster the fixed segmented words into a lexicon. In contrast, top-down methods incorporate information from the clustered words to inform boundary selection. However, it is unclear whether top-down information is necessary to improve segmentation. To explore this, we look at two similar approaches that differ in whether top-down clustering informs boundary selection. Our simple bottom-up strategy predicts word boundaries using the dissimilarity between adjacent self-supervised features, then clusters the resulting segments to construct a lexicon. Our top-down system is an updated version of the ES-KMeans dynamic programming method that iteratively uses K-means to update its boundaries. On the five-language ZeroSpeech benchmarks, both approaches achieve comparable state-of-the-art results, with the bottom-up system being nearly five times faster. Through detailed analyses, we show that the top-down influence of ES-KMeans can be beneficial (depending on factors like the candidate boundaries), but in many cases the simple bottom-up method performs just as well. For both methods, we show that the clustering step is a limiting factor. Therefore, we recommend that future work focus on improved clustering techniques and learning more discriminative word-like representations. Project code repository: https://github.com/s-malan/prom-seg-clus.
- Abstract(参考訳): ラベルのない音声を単語のような単位に分割し、それらをクラスタ化して語彙を生成するという問題について検討する。
以前の作業は2つのフレームワークに分類される。
ボトムアップ法はまず境界を決定し、次に固定されたセグメント化された単語を語彙にクラスタ化する。
対照的に、トップダウン手法は、クラスタ化された単語からの情報を組み込んで境界選択を知らせる。
しかし、セグメンテーションを改善するためにトップダウン情報が必要であるかどうかは不明である。
これを検討するために、トップダウンクラスタリングが境界選択を通知するかどうかが異なる2つの類似したアプローチを考察する。
我々の単純なボトムアップ戦略は、隣接する自己監督的特徴間の相似性を用いて単語境界を予測し、その結果のセグメントをクラスタ化して語彙を構築する。
我々のトップダウンシステムは、その境界を更新するためにK-meansを反復的に使用するES-KMeans動的プログラミング法の更新版である。
5言語のZeroSpeechベンチマークでは、両方のアプローチが同等の最先端結果を実現し、ボトムアップシステムはほぼ5倍高速である。
詳細な分析から,ES-KMeansの上位ダウンの影響(候補境界などの要因に依存する)は有益であるが,多くの場合,単純なボトムアップ手法も同じように機能する。
どちらの方法も、クラスタリングのステップが制限要因であることを示します。
したがって、今後はクラスタリング技術の改善と、より差別的な単語様表現の学習に重点を置くことを推奨する。
プロジェクトコードリポジトリ:https://github.com/s-malan/prom-seg-clus。
関連論文リスト
- An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。
既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。
短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。
さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文 参考訳(メタデータ) (2025-07-18T10:07:42Z) - Unsupervised Word Discovery: Boundary Detection with Clustering vs. Dynamic Programming [22.044042563954378]
我々は、ラベルなし音声を単語のようなセグメントに分割し、それらを辞書に集約するという長年の課題について考察する。
そこで我々は, 隣接した自己教師付き特徴の相似性を用いて単語境界を予測し, 予測セグメントをクラスタ化して辞書を構築するという, より単純な戦略を提案する。
公平な比較のために、より優れた機能と境界制約を持つ古いES-KMeans動的プログラミング手法を更新する。
論文 参考訳(メタデータ) (2024-09-22T15:16:43Z) - Lidar Panoptic Segmentation in an Open World [50.094491113541046]
ライダーパノプティクス(LPS)は自動運転車の安全な配備に不可欠である。
LPSは、セマンティッククラスの事前に定義された語彙であるライダーポイントを認識し、セグメント化することを目的としている。
階層的な方法で入力クラウドのクラスタリングとオーバーセグメンテーションを提案し,次にバイナリポイントセグメント分類を行う。
論文 参考訳(メタデータ) (2024-09-22T00:10:20Z) - OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。
上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。
我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文 参考訳(メタデータ) (2024-03-11T09:46:41Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - DocSCAN: Unsupervised Text Classification via Learning from Neighbors [2.2082422928825145]
Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2021-05-09T21:20:31Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。