論文の概要: Towards unsupervised phone and word segmentation using self-supervised
vector-quantized neural networks
- arxiv url: http://arxiv.org/abs/2012.07551v1
- Date: Mon, 14 Dec 2020 14:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:26:57.611279
- Title: Towards unsupervised phone and word segmentation using self-supervised
vector-quantized neural networks
- Title(参考訳): 自己教師型ベクトル量子化ニューラルネットワークによる音声と単語のセグメンテーション
- Authors: Herman Kamper, Benjamin van Niekerk
- Abstract要約: 音声のセグメンテーションとクラスタリングを、監視せずに低ビット電話ライクなシーケンスに分類する。
我々は、連続した特徴ベクトルのブロックが同一コードに割り当てられるように、予め訓練された自己教師付きベクトル量子化(VQ)ニューラルネットワークを特に制約する。
- 参考スコア(独自算出の注目度): 36.23526776206862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate segmenting and clustering speech into low-bitrate phone-like
sequences without supervision. We specifically constrain pretrained
self-supervised vector-quantized (VQ) neural networks so that blocks of
contiguous feature vectors are assigned to the same code, thereby giving a
variable-rate segmentation of the speech into discrete units. Two segmentation
methods are considered. In the first, features are greedily merged until a
prespecified number of segments are reached. The second uses dynamic
programming to optimize a squared error with a penalty term to encourage fewer
but longer segments. We show that these VQ segmentation methods can be used
without alteration across a wide range of tasks: unsupervised phone
segmentation, ABX phone discrimination, same-different word discrimination, and
as inputs to a symbolic word segmentation algorithm. The penalized method
generally performs best. While results are only comparable to the
state-of-the-art in some cases, in all tasks a reasonable competing approach is
outperformed at a substantially lower bitrate.
- Abstract(参考訳): 音声のセグメンテーションとクラスタリングを、監視せずに低ビット電話ライクなシーケンスに分類する。
具体的には、事前訓練されたベクトル量子化(VQ)ニューラルネットワークを制約し、連続した特徴ベクトルのブロックを同一コードに割り当てることで、音声の可変レートセグメンテーションを離散単位に設定する。
セグメンテーションには2つの方法がある。
第一に、あらかじめ指定されたセグメント数に到達するまで、特徴は厳密にマージされる。
2つ目は動的プログラミングを使って2乗誤差をペナルティ項で最適化し、少ないが長いセグメントを奨励する。
これらのVQセグメンテーション手法は, 教師なし電話セグメンテーション, ABX電話識別, 同一差分単語識別, 記号的単語セグメンテーションアルゴリズムへの入力など, 幅広いタスクにまたがって変更することなく利用できることを示す。
ペナルティ化方式は一般に最もよく機能する。
結果が最先端のものに匹敵する場合もあるが、すべてのタスクにおいて合理的な競合アプローチは、かなり低いビットレートで比較される。
関連論文リスト
- An Explainable Proxy Model for Multiabel Audio Segmentation [1.7611027732647493]
音声活動(SAD)、音楽(MD)、ノイズ(ND)、重畳音声検出(OSD)を同時に解くための説明可能なマルチラベルセグメンテーションモデルを提案する。
2つのデータセットで実施された実験は、トレーニング済みのブラックボックスモデルと同様のパフォーマンスを示しながら、強い説明可能性を示している。
論文 参考訳(メタデータ) (2024-01-16T10:41:33Z) - Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。
U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。
次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:59:04Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Word Segmentation on Discovered Phone Units with Dynamic Programming and
Self-Supervised Scoring [23.822788597966646]
教師なし音声セグメンテーションの最近の研究は、電話セグメンテーションモジュールと、共同で訓練された単語セグメンテーションモジュールを備えた自己教師型モデルを用いている。
本稿では,この共同手法と,まずボトムアップ電話のような単位探索を行い,その上で記号的単語セグメンテーションを行うという,従来の考え方と比較する。
具体的には、セグメントコストを与える自己監督型スコアリングネットワークを変更することで、電話や単語のセグメンテーションに使用可能な、期間金化動的プログラミング(DPDP)手順を具体的に記述する。
論文 参考訳(メタデータ) (2022-02-24T07:02:56Z) - SOLO: A Simple Framework for Instance Segmentation [84.00519148562606]
インスタンスカテゴリ"は、インスタンスの場所に応じて、インスタンス内の各ピクセルにカテゴリを割り当てる。
SOLO"は、強力なパフォーマンスを備えたインスタンスセグメンテーションのための、シンプルで、直接的で、高速なフレームワークです。
提案手法は, 高速化と精度の両面から, 実例分割の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-30T09:56:54Z) - Segmental Contrastive Predictive Coding for Unsupervised Word
Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。
微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。
本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-06-03T23:12:05Z) - Exposing Semantic Segmentation Failures via Maximum Discrepancy
Competition [102.75463782627791]
オープンビジュアルの世界において,既存の意味セグメンテーション手法の失敗を露呈することで,質問に答える。
モデル改ざんに関するこれまでの研究に触発され、任意に大きい画像セットから始まり、2つのセグメンテーション方法間の差分法(MAD)をMAximizingすることによって、小さな画像セットを自動的にサンプリングします。
選択された画像は、2つの方法のいずれか(または両方)を偽造する最大の可能性を持っている。
また,MADコンペティションにおいて,障害の露呈が困難であるセグメンテーション法について検討した。
論文 参考訳(メタデータ) (2021-02-27T16:06:25Z) - Unifying Instance and Panoptic Segmentation with Dynamic Rank-1
Convolutions [109.2706837177222]
DR1Maskは、インスタンスとセマンティックセグメンテーションの両方で共有機能マップを利用する最初のパノプティクスセグメンテーションフレームワークである。
副産物として、DR1Maskは従来の最先端のインスタンスセグメンテーションネットワークであるBlendMaskよりも10%高速で1ポイント精度が高い。
論文 参考訳(メタデータ) (2020-11-19T12:42:10Z) - Deep Variational Instance Segmentation [7.334808870313923]
State-of-the-artアルゴリズムは、しばしば2つの別々のステージを使用し、最初の1つはオブジェクトの提案を生成し、もう1つは境界を認識して修正する。
完全畳み込みネットワーク(FCN)を直接利用して,インスタンスラベルを予測する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-22T17:57:49Z) - Whole-Word Segmental Speech Recognition with Acoustic Word Embeddings [28.04666950237383]
本研究では,全単語(音響対単語)音声認識のためのセグメントモデルについて検討する。
本稿では,エンドツーエンドの単語セグメントモデルに対する効率的なアプローチについて述べる。
音響セグメント表現の事前学習により,単語誤り率を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2020-07-01T02:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。