論文の概要: Word Segmentation on Discovered Phone Units with Dynamic Programming and
Self-Supervised Scoring
- arxiv url: http://arxiv.org/abs/2202.11929v1
- Date: Thu, 24 Feb 2022 07:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 18:13:43.259383
- Title: Word Segmentation on Discovered Phone Units with Dynamic Programming and
Self-Supervised Scoring
- Title(参考訳): 動的プログラミングと自己監督型スコーリングを用いた発見電話機における単語セグメンテーション
- Authors: Herman Kamper
- Abstract要約: 教師なし音声セグメンテーションの最近の研究は、電話セグメンテーションモジュールと、共同で訓練された単語セグメンテーションモジュールを備えた自己教師型モデルを用いている。
本稿では,この共同手法と,まずボトムアップ電話のような単位探索を行い,その上で記号的単語セグメンテーションを行うという,従来の考え方と比較する。
具体的には、セグメントコストを与える自己監督型スコアリングネットワークを変更することで、電話や単語のセグメンテーションに使用可能な、期間金化動的プログラミング(DPDP)手順を具体的に記述する。
- 参考スコア(独自算出の注目度): 23.822788597966646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on unsupervised speech segmentation has used self-supervised
models with a phone segmentation module and a word segmentation module that are
trained jointly. This paper compares this joint methodology with an older idea:
bottom-up phone-like unit discovery is performed first, and symbolic word
segmentation is then performed on top of the discovered units (without
influencing the lower level). I specifically describe a duration-penalized
dynamic programming (DPDP) procedure that can be used for either phone or word
segmentation by changing the self-supervised scoring network that gives segment
costs. For phone discovery, DPDP is applied with a contrastive predictive
coding clustering model, while for word segmentation it is used with an
autoencoding recurrent neural network. The two models are chained in order to
segment speech. This approach gives comparable word segmentation results to
state-of-the-art joint self-supervised models on an English benchmark. On
French and Mandarin data, it outperforms previous systems on the ZeroSpeech
benchmarks. Analysis shows that the chained DPDP system segments shorter filler
words well, but longer words might require an external top-down signal.
- Abstract(参考訳): 教師なし音声セグメンテーションに関する最近の研究は、電話セグメンテーションモジュールと共同で訓練された単語セグメンテーションモジュールを備えた自己教師型モデルを用いている。
本稿では,この共同手法と,まずボトムアップ電話のような単位探索を行い,その上(下層に影響を与えない)で記号的単語分割を行うという,従来の考え方と比較する。
特に,セグメントコストを与える自己教師付きスコアリングネットワークを変更することで,電話や単語のセグメンテーションに使用できる持続時間ペナライズド動的プログラミング (dpdp) 手順について述べる。
電話発見では、dpdpは対照的な予測符号化クラスタリングモデルで適用され、単語セグメンテーションでは自動エンコーディングリカレントニューラルネットワークで使用される。
2つのモデルは音声をセグメンテーションするために連鎖する。
このアプローチは、英語ベンチマーク上の最先端の自己教師付きモデルに匹敵する単語分割結果を与える。
フランス語とマンダリンのデータでは、ZeroSpeechベンチマークで以前のシステムより優れている。
解析の結果,連鎖したdpdpシステムは短いフィラーワードをうまく区切るが,長い単語は外部のトップダウン信号を必要とする可能性がある。
関連論文リスト
- REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。
我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - Revisiting speech segmentation and lexicon learning with better features [29.268728666438495]
我々は,未学習の音声を単語のようなセグメントに分割する自己教師型手法を再検討する。
まず,2段階の持続時間ペン化動的プログラミング法から始める。
第1の音響ユニット発見段階では、コントラスト予測符号を HuBERT に置き換える。
第2段階における単語セグメンテーションの後,HuBERT特徴量の平均化により,各セグメントに音響単語を埋め込む。
論文 参考訳(メタデータ) (2024-01-31T15:06:34Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。
U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。
次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:59:04Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Segmental Contrastive Predictive Coding for Unsupervised Word
Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。
微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。
本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-06-03T23:12:05Z) - Towards unsupervised phone and word segmentation using self-supervised
vector-quantized neural networks [36.23526776206862]
音声のセグメンテーションとクラスタリングを、監視せずに低ビット電話ライクなシーケンスに分類する。
我々は、連続した特徴ベクトルのブロックが同一コードに割り当てられるように、予め訓練された自己教師付きベクトル量子化(VQ)ニューラルネットワークを特に制約する。
論文 参考訳(メタデータ) (2020-12-14T14:17:33Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Whole-Word Segmental Speech Recognition with Acoustic Word Embeddings [28.04666950237383]
本研究では,全単語(音響対単語)音声認識のためのセグメントモデルについて検討する。
本稿では,エンドツーエンドの単語セグメントモデルに対する効率的なアプローチについて述べる。
音響セグメント表現の事前学習により,単語誤り率を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2020-07-01T02:22:09Z) - Catplayinginthesnow: Impact of Prior Segmentation on a Model of Visually
Grounded Speech [24.187382590960254]
子どもたちは、音声入力を音素に分割し、そこから単語を組み立てることで、語彙を作らない。
これは、言語を学ぶ理想的な方法は、完全なセマンティックユニットから始めることである。
本稿では、RNNモデルにそのような情報を導入し、どのタイプの境界が最も効率的かを調べるための簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-06-15T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。