論文の概要: Segmental Contrastive Predictive Coding for Unsupervised Word
Segmentation
- arxiv url: http://arxiv.org/abs/2106.02170v1
- Date: Thu, 3 Jun 2021 23:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:17:07.922508
- Title: Segmental Contrastive Predictive Coding for Unsupervised Word
Segmentation
- Title(参考訳): 教師なし単語セグメンテーションのためのセグメンショナルコントラスト予測符号化
- Authors: Saurabhchand Bhati, Jes\'us Villalba, Piotr \.Zelasko, Laureano
Moro-Velazquez, Najim Dehak
- Abstract要約: 本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。
微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。
本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 33.35220574193796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic detection of phoneme or word-like units is one of the core
objectives in zero-resource speech processing. Recent attempts employ
self-supervised training methods, such as contrastive predictive coding (CPC),
where the next frame is predicted given past context. However, CPC only looks
at the audio signal's frame-level structure. We overcome this limitation with a
segmental contrastive predictive coding (SCPC) framework that can model the
signal structure at a higher level e.g. at the phoneme level. In this
framework, a convolutional neural network learns frame-level representation
from the raw waveform via noise-contrastive estimation (NCE). A differentiable
boundary detector finds variable-length segments, which are then used to
optimize a segment encoder via NCE to learn segment representations. The
differentiable boundary detector allows us to train frame-level and
segment-level encoders jointly. Typically, phoneme and word segmentation are
treated as separate tasks. We unify them and experimentally show that our
single model outperforms existing phoneme and word segmentation methods on
TIMIT and Buckeye datasets. We analyze the impact of boundary threshold and
when is the right time to include the segmental loss in the learning process.
- Abstract(参考訳): 音素や単語のような単位の自動検出は、ゼロリソース音声処理における中核的な目的の1つである。
最近の試みでは、コントラスト予測符号化(CPC)のような自己教師付きトレーニング手法が採用されている。
しかし、CPCは音声信号のフレームレベル構造のみを見る。
信号構造を高レベルにモデル化できるsegmental contrastive prediction coding (scpc) フレームワークによって,この制限を克服した。
音素レベルで
この枠組みでは、畳み込みニューラルネットワークがノイズコントラスト推定(NCE)により生波形からフレームレベルの表現を学習する。
微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化してセグメント表現を学習する。
可変境界検出器はフレームレベルとセグメントレベルのエンコーダを共同で訓練することができる。
通常、音素と単語分割は別のタスクとして扱われる。
我々はこれらを統一し、TIMITおよびBuckeyeデータセット上の既存の音素・単語分割法よりも優れていることを示す。
境界しきい値の影響を解析し,学習プロセスにセグメント損失を含むための適切なタイミングについて分析する。
関連論文リスト
- REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。
我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - Revisiting speech segmentation and lexicon learning with better features [29.268728666438495]
我々は,未学習の音声を単語のようなセグメントに分割する自己教師型手法を再検討する。
まず,2段階の持続時間ペン化動的プログラミング法から始める。
第1の音響ユニット発見段階では、コントラスト予測符号を HuBERT に置き換える。
第2段階における単語セグメンテーションの後,HuBERT特徴量の平均化により,各セグメントに音響単語を埋め込む。
論文 参考訳(メタデータ) (2024-01-31T15:06:34Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。
そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。
我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-17T08:29:33Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Word Segmentation on Discovered Phone Units with Dynamic Programming and
Self-Supervised Scoring [23.822788597966646]
教師なし音声セグメンテーションの最近の研究は、電話セグメンテーションモジュールと、共同で訓練された単語セグメンテーションモジュールを備えた自己教師型モデルを用いている。
本稿では,この共同手法と,まずボトムアップ電話のような単位探索を行い,その上で記号的単語セグメンテーションを行うという,従来の考え方と比較する。
具体的には、セグメントコストを与える自己監督型スコアリングネットワークを変更することで、電話や単語のセグメンテーションに使用可能な、期間金化動的プログラミング(DPDP)手順を具体的に記述する。
論文 参考訳(メタデータ) (2022-02-24T07:02:56Z) - Towards unsupervised phone and word segmentation using self-supervised
vector-quantized neural networks [36.23526776206862]
音声のセグメンテーションとクラスタリングを、監視せずに低ビット電話ライクなシーケンスに分類する。
我々は、連続した特徴ベクトルのブロックが同一コードに割り当てられるように、予め訓練された自己教師付きベクトル量子化(VQ)ニューラルネットワークを特に制約する。
論文 参考訳(メタデータ) (2020-12-14T14:17:33Z) - A comparison of self-supervised speech representations as input features
for unsupervised acoustic word embeddings [32.59716743279858]
私たちは、短い時間枠レベルで表現学習を見ます。
最近のアプローチには、自己監視型予測符号化および対応オートエンコーダ(CAE)モデルが含まれる。
コントラスト予測符号化(CPC)、オートレグレッシブ予測符号化、CAEなどのフレームレベルの特徴を従来のMFCCと比較します。
論文 参考訳(メタデータ) (2020-12-14T10:17:25Z) - Whole-Word Segmental Speech Recognition with Acoustic Word Embeddings [28.04666950237383]
本研究では,全単語(音響対単語)音声認識のためのセグメントモデルについて検討する。
本稿では,エンドツーエンドの単語セグメントモデルに対する効率的なアプローチについて述べる。
音響セグメント表現の事前学習により,単語誤り率を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2020-07-01T02:22:09Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。