論文の概要: Unsupervised Word Discovery: Boundary Detection with Clustering vs. Dynamic Programming
- arxiv url: http://arxiv.org/abs/2409.14486v1
- Date: Sun, 22 Sep 2024 15:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 22:30:40.581974
- Title: Unsupervised Word Discovery: Boundary Detection with Clustering vs. Dynamic Programming
- Title(参考訳): 教師なし単語発見:クラスタリングによる境界検出と動的プログラミング
- Authors: Simon Malan, Benjamin van Niekerk, Herman Kamper,
- Abstract要約: 我々は、ラベルなし音声を単語のようなセグメントに分割し、それらを辞書に集約するという長年の課題について考察する。
そこで我々は, 隣接した自己教師付き特徴の相似性を用いて単語境界を予測し, 予測セグメントをクラスタ化して辞書を構築するという, より単純な戦略を提案する。
公平な比較のために、より優れた機能と境界制約を持つ古いES-KMeans動的プログラミング手法を更新する。
- 参考スコア(独自算出の注目度): 22.044042563954378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We look at the long-standing problem of segmenting unlabeled speech into word-like segments and clustering these into a lexicon. Several previous methods use a scoring model coupled with dynamic programming to find an optimal segmentation. Here we propose a much simpler strategy: we predict word boundaries using the dissimilarity between adjacent self-supervised features, then we cluster the predicted segments to construct a lexicon. For a fair comparison, we update the older ES-KMeans dynamic programming method with better features and boundary constraints. On the five-language ZeroSpeech benchmarks, our simple approach gives similar state-of-the-art results compared to the new ES-KMeans+ method, while being almost five times faster.
- Abstract(参考訳): 我々は、ラベルなし音声を単語のようなセグメントに分割し、それらを辞書に集約するという長年の課題について考察する。
いくつかの従来の手法では、スコアリングモデルと動的プログラミングを組み合わせて最適なセグメンテーションを見つける。
そこで我々は, 隣接した自己教師付き特徴の相似性を用いて単語境界を予測し, 予測セグメントをクラスタ化して辞書を構築するという, より単純な戦略を提案する。
公平な比較のために、より優れた機能と境界制約を持つ古いES-KMeans動的プログラミング手法を更新する。
5言語によるZeroSpeechベンチマークでは、新しいES-KMeans+法と同じような結果が得られるが、ほぼ5倍高速である。
関連論文リスト
- MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。
新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文 参考訳(メタデータ) (2024-06-17T03:49:47Z) - OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。
上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。
我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文 参考訳(メタデータ) (2024-03-11T09:46:41Z) - Revisiting speech segmentation and lexicon learning with better features [29.268728666438495]
我々は,未学習の音声を単語のようなセグメントに分割する自己教師型手法を再検討する。
まず,2段階の持続時間ペン化動的プログラミング法から始める。
第1の音響ユニット発見段階では、コントラスト予測符号を HuBERT に置き換える。
第2段階における単語セグメンテーションの後,HuBERT特徴量の平均化により,各セグメントに音響単語を埋め込む。
論文 参考訳(メタデータ) (2024-01-31T15:06:34Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - SASFormer: Transformers for Sparsely Annotated Semantic Segmentation [44.758672633271956]
本稿では,SASFormer と呼ばれるセグフォーマをベースとした,シンプルで効果的なスパースアノテートセマンティックセマンティックセマンティックセマンティクスフレームワークを提案する。
具体的には、まず階層的なパッチアテンションマップを生成し、それをネットワーク予測に乗じて、有効なラベルで分離された相関領域を生成する。
論文 参考訳(メタデータ) (2022-12-05T04:33:12Z) - Smart Speech Segmentation using Acousto-Linguistic Features with
look-ahead [3.579111205766969]
本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。
平均して、私たちのモデルはセグメンテーション-F0.5スコアをベースラインで9.8%改善します。
機械翻訳の下流タスクでは、BLEUスコアを平均1.05ポイント改善する。
論文 参考訳(メタデータ) (2022-10-26T03:36:31Z) - DP-Parse: Finding Word Boundaries from Raw Speech with an Instance
Lexicon [18.05179713472479]
DP-Parseも同様の原理を用いるが、ワードトークンのインスタンスレキシコンにのみ依存する。
Zero Resource Speech Benchmark 2017で、我々のモデルは5つの言語で新しい音声セグメンテーション状態を設定する。
型レキシコンが欠如しているにもかかわらず、DP-Parseは言語モデルにパイプライン化され、新しい音声単語埋め込みベンチマークで評価されるように、セマンティック表現を学ぶことができる。
論文 参考訳(メタデータ) (2022-06-22T19:15:57Z) - Word Segmentation on Discovered Phone Units with Dynamic Programming and
Self-Supervised Scoring [23.822788597966646]
教師なし音声セグメンテーションの最近の研究は、電話セグメンテーションモジュールと、共同で訓練された単語セグメンテーションモジュールを備えた自己教師型モデルを用いている。
本稿では,この共同手法と,まずボトムアップ電話のような単位探索を行い,その上で記号的単語セグメンテーションを行うという,従来の考え方と比較する。
具体的には、セグメントコストを与える自己監督型スコアリングネットワークを変更することで、電話や単語のセグメンテーションに使用可能な、期間金化動的プログラミング(DPDP)手順を具体的に記述する。
論文 参考訳(メタデータ) (2022-02-24T07:02:56Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。