Fugu-MT 論文翻訳(概要): Unsupervised Word Discovery: Boundary Detection with Clustering vs. Dynamic Programming

論文の概要: Unsupervised Word Discovery: Boundary Detection with Clustering vs. Dynamic Programming

arxiv url: http://arxiv.org/abs/2409.14486v1
Date: Sun, 22 Sep 2024 15:16:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 22:30:40.581974
Title: Unsupervised Word Discovery: Boundary Detection with Clustering vs. Dynamic Programming
Title（参考訳）: 教師なし単語発見:クラスタリングによる境界検出と動的プログラミング
Authors: Simon Malan, Benjamin van Niekerk, Herman Kamper,
Abstract要約: 我々は、ラベルなし音声を単語のようなセグメントに分割し、それらを辞書に集約するという長年の課題について考察する。そこで我々は, 隣接した自己教師付き特徴の相似性を用いて単語境界を予測し, 予測セグメントをクラスタ化して辞書を構築するという, より単純な戦略を提案する。公平な比較のために、より優れた機能と境界制約を持つ古いES-KMeans動的プログラミング手法を更新する。
参考スコア（独自算出の注目度）: 22.044042563954378
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We look at the long-standing problem of segmenting unlabeled speech into word-like segments and clustering these into a lexicon. Several previous methods use a scoring model coupled with dynamic programming to find an optimal segmentation. Here we propose a much simpler strategy: we predict word boundaries using the dissimilarity between adjacent self-supervised features, then we cluster the predicted segments to construct a lexicon. For a fair comparison, we update the older ES-KMeans dynamic programming method with better features and boundary constraints. On the five-language ZeroSpeech benchmarks, our simple approach gives similar state-of-the-art results compared to the new ES-KMeans+ method, while being almost five times faster.
Abstract（参考訳）: 我々は、ラベルなし音声を単語のようなセグメントに分割し、それらを辞書に集約するという長年の課題について考察する。いくつかの従来の手法では、スコアリングモデルと動的プログラミングを組み合わせて最適なセグメンテーションを見つける。そこで我々は, 隣接した自己教師付き特徴の相似性を用いて単語境界を予測し, 予測セグメントをクラスタ化して辞書を構築するという, より単純な戦略を提案する。公平な比較のために、より優れた機能と境界制約を持つ古いES-KMeans動的プログラミング手法を更新する。 5言語によるZeroSpeechベンチマークでは、新しいES-KMeans+法と同じような結果が得られるが、ほぼ5倍高速である。

関連論文リスト

Should Top-Down Clustering Affect Boundaries in Unsupervised Word Discovery? [22.044042563954378]
ラベルのない音声を単語のような単位に分割し、それらをクラスタ化して語彙を生成するという問題について検討する。トップダウン手法は、クラスタ化された単語からの情報を組み込んで境界選択を知らせる。 ES-KMeansによるトップダウンの影響は有益であることを示すが、多くの場合、単純なボトムアップ手法も同様に機能する。
論文参考訳（メタデータ） (2025-07-25T12:19:16Z)
An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
Segment First or Comprehend First? Explore the Limit of Unsupervised Word Segmentation with Large Language Models [92.92512796044471]
本稿では,Large Language Models (LLMs) を用いた教師なし単語セグメンテーションの限界を探索する新しいフレームワークを提案する。我々は,LLMの「理解」を評価するために,複数の言語にまたがる単語セグメンテーションを行うために,現在主流のLLMを使用している。本研究では,文脈情報に基づく動的$n$-gramモデルの構築を可能にする,LACAと呼ばれる新しい教師なし手法を提案する。
論文参考訳（メタデータ） (2025-05-26T07:48:15Z)
MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文参考訳（メタデータ） (2024-07-11T18:59:21Z)
Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文参考訳（メタデータ） (2024-06-17T03:49:47Z)
OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文参考訳（メタデータ） (2024-03-11T09:46:41Z)
Revisiting speech segmentation and lexicon learning with better features [29.268728666438495]
我々は,未学習の音声を単語のようなセグメントに分割する自己教師型手法を再検討する。まず,2段階の持続時間ペン化動的プログラミング法から始める。第1の音響ユニット発見段階では、コントラスト予測符号を HuBERT に置き換える。第2段階における単語セグメンテーションの後,HuBERT特徴量の平均化により,各セグメントに音響単語を埋め込む。
論文参考訳（メタデータ） (2024-01-31T15:06:34Z)
SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。 SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文参考訳（メタデータ） (2023-07-31T04:38:47Z)
Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。比較すると,本手法はより汎用的で有効である。
論文参考訳（メタデータ） (2023-03-11T08:42:40Z)
SASFormer: Transformers for Sparsely Annotated Semantic Segmentation [44.758672633271956]
本稿では,SASFormer と呼ばれるセグフォーマをベースとした,シンプルで効果的なスパースアノテートセマンティックセマンティックセマンティックセマンティクスフレームワークを提案する。具体的には、まず階層的なパッチアテンションマップを生成し、それをネットワーク予測に乗じて、有効なラベルで分離された相関領域を生成する。
論文参考訳（メタデータ） (2022-12-05T04:33:12Z)
Smart Speech Segmentation using Acousto-Linguistic Features with look-ahead [3.579111205766969]
本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。平均して、私たちのモデルはセグメンテーション-F0.5スコアをベースラインで9.8%改善します。機械翻訳の下流タスクでは、BLEUスコアを平均1.05ポイント改善する。
論文参考訳（メタデータ） (2022-10-26T03:36:31Z)
DP-Parse: Finding Word Boundaries from Raw Speech with an Instance Lexicon [18.05179713472479]
DP-Parseも同様の原理を用いるが、ワードトークンのインスタンスレキシコンにのみ依存する。 Zero Resource Speech Benchmark 2017で、我々のモデルは5つの言語で新しい音声セグメンテーション状態を設定する。型レキシコンが欠如しているにもかかわらず、DP-Parseは言語モデルにパイプライン化され、新しい音声単語埋め込みベンチマークで評価されるように、セマンティック表現を学ぶことができる。
論文参考訳（メタデータ） (2022-06-22T19:15:57Z)
CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文参考訳（メタデータ） (2022-05-02T12:02:09Z)
Word Segmentation on Discovered Phone Units with Dynamic Programming and Self-Supervised Scoring [23.822788597966646]
教師なし音声セグメンテーションの最近の研究は、電話セグメンテーションモジュールと、共同で訓練された単語セグメンテーションモジュールを備えた自己教師型モデルを用いている。本稿では,この共同手法と,まずボトムアップ電話のような単位探索を行い,その上で記号的単語セグメンテーションを行うという,従来の考え方と比較する。具体的には、セグメントコストを与える自己監督型スコアリングネットワークを変更することで、電話や単語のセグメンテーションに使用可能な、期間金化動的プログラミング(DPDP)手順を具体的に記述する。
論文参考訳（メタデータ） (2022-02-24T07:02:56Z)
Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文参考訳（メタデータ） (2022-02-04T07:19:09Z)
Segmental Contrastive Predictive Coding for Unsupervised Word Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文参考訳（メタデータ） (2021-06-03T23:12:05Z)
Temporally-Weighted Hierarchical Clustering for Unsupervised Action Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文参考訳（メタデータ） (2021-03-20T23:30:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。