論文の概要: End-to-End Mandarin Tone Classification with Short Term Context
Information
- arxiv url: http://arxiv.org/abs/2104.05657v1
- Date: Mon, 12 Apr 2021 17:27:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 13:43:59.848048
- Title: End-to-End Mandarin Tone Classification with Short Term Context
Information
- Title(参考訳): 短期情報を用いたエンド・ツー・エンドマンダリン音分類
- Authors: Jiyang Tang, Ming Li
- Abstract要約: スペクトル情報と短期コンテキスト情報の両方を入力として,エンドツーエンドのマンダリントーン分類法を提案する。
大規模なオープンソースのマンダリン音声データセット上で実験を行い,提案手法を評価する。
その結果、この手法は、aishell3データベースの分類精度を79.5%から85.7%に向上させた。
- 参考スコア(独自算出の注目度): 8.362607080273248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an end-to-end Mandarin tone classification method
from continuous speech utterances utilizing both the spectrogram and the short
term context information as the inputs. Both Mel-spectrograms and context
segment features are used to train the tone classifier. We first divide the
spectrogram frames into syllable segments using force alignment results
produced by an ASR model. Then we extract the short term segment features to
capture the context information across multiple syllables. Feeding both the
Mel-spectrogram and the short term context segment features into an end-to-end
model could significantly improve the performance. Experiments are performed on
a large scale open source Mandarin speech dataset to evaluate the proposed
method. Results show that the this method improves the classification accuracy
from $79.5\%$ to $88.7\%$ on the AISHELL3 database.
- Abstract(参考訳): 本稿では,スペクトル情報と短期文脈情報の両方を入力として,連続音声発話から端から端までマンダリン音の分類法を提案する。
Mel-spectrogramsとコンテキストセグメント機能の両方を使用して、トーン分類器を訓練する。
まず,asrモデルによる力アライメント結果を用いて,スペクトルフレームを音節に分割した。
そして、複数の音節にまたがる文脈情報を取り込むために、短期のセグメント特徴を抽出する。
Mel-spectrogramと短期的なコンテキストセグメントの機能をエンドツーエンドモデルにフィードすることで、パフォーマンスを大幅に向上させることができる。
提案手法を評価するために,大規模オープンソースmandarin音声データセットを用いて実験を行った。
その結果、この手法は、aishell3データベース上で79.5\%$から85.7\%$に分類精度が向上した。
関連論文リスト
- Revisiting speech segmentation and lexicon learning with better features [29.268728666438495]
我々は,未学習の音声を単語のようなセグメントに分割する自己教師型手法を再検討する。
まず,2段階の持続時間ペン化動的プログラミング法から始める。
第1の音響ユニット発見段階では、コントラスト予測符号を HuBERT に置き換える。
第2段階における単語セグメンテーションの後,HuBERT特徴量の平均化により,各セグメントに音響単語を埋め込む。
論文 参考訳(メタデータ) (2024-01-31T15:06:34Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Smart Speech Segmentation using Acousto-Linguistic Features with
look-ahead [3.579111205766969]
本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。
平均して、私たちのモデルはセグメンテーション-F0.5スコアをベースラインで9.8%改善します。
機械翻訳の下流タスクでは、BLEUスコアを平均1.05ポイント改善する。
論文 参考訳(メタデータ) (2022-10-26T03:36:31Z) - ESSumm: Extractive Speech Summarization from Untranscribed Meeting [7.309214379395552]
本稿では,音声から音声への直接要約のための新しいアーキテクチャであるESSummを提案する。
市販の自己教師型畳み込みニューラルネットワークを利用して、生音声から深層音声の特徴を抽出する。
提案手法は,目的の要約長でキー情報をキャプチャする音声セグメントの最適シーケンスを自動的に予測する。
論文 参考訳(メタデータ) (2022-09-14T20:13:15Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Speech Segmentation Optimization using Segmented Bilingual Speech Corpus
for End-to-end Speech Translation [16.630616128169372]
セグメント化バイリンガル音声コーパスを用いて訓練された二分分類モデルを用いた音声セグメント化手法を提案する。
実験の結果,提案手法は従来のセグメンテーション法よりもカスケードおよびエンド・ツー・エンドのSTシステムに適していることがわかった。
論文 参考訳(メタデータ) (2022-03-29T12:26:56Z) - Adaptive Early-Learning Correction for Segmentation from Noisy
Annotations [13.962891776039369]
不正確な注釈付きデータに基づいて訓練されたディープセグメンテーションネットワークの学習ダイナミクスについて検討する。
2つのキー要素を持つノイズの多いアノテーションから分割する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-07T18:46:23Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。