論文の概要: A Context-Based Numerical Format Prediction for a Text-To-Speech System
- arxiv url: http://arxiv.org/abs/2412.00028v1
- Date: Tue, 19 Nov 2024 05:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-08 09:16:00.890059
- Title: A Context-Based Numerical Format Prediction for a Text-To-Speech System
- Title(参考訳): テキスト音声システムにおける文脈に基づく数値フォーマット予測
- Authors: Yaser Darwesh, Lit Wei Wern, Mumtaz Begum Mustafa,
- Abstract要約: 提案手法は既存の特徴抽出手法よりも優れ,分類精度が30%から37%向上した。
数値形式分類の使用により、TSシステムの信頼性が向上する。
- 参考スコア(独自算出の注目度): 0.5120567378386615
- License:
- Abstract: Many of the existing TTS systems cannot accurately synthesize text containing a variety of numerical formats, resulting in reduced intelligibility of the synthesized speech. This research aims to develop a numerical format classifier that can classify six types of numeric contexts. Experiments were carried out using the proposed context-based feature extraction technique, which is focused on extracting keywords, punctuation marks, and symbols as the features of the numbers. Support Vector Machine, K-Nearest Neighbors Linear Discriminant Analysis, and Decision Tree were used as classifiers. We have used the 10-fold cross-validation technique to determine the classification accuracy in terms of recall and precision. It can be found that the proposed solution is better than the existing feature extraction technique with improvement to the classification accuracy by 30% to 37%. The use of the number format classification can increase the intelligibility of the TTS systems.
- Abstract(参考訳): 既存のTSシステムの多くは、様々な数値形式を含むテキストを正確に合成することができず、結果として合成された音声の信頼性が低下する。
本研究の目的は、6種類の数値文脈を分類できる数値形式分類器を開発することである。
数の特徴としてキーワード,句読点,記号を抽出することに焦点を当てた,文脈に基づく特徴抽出手法を用いて実験を行った。
分類には、サポートベクトルマシン、K-Nearest Neearbors Linear Discriminant Analysis、Decision Treeが用いられた。
我々は,10倍のクロスバリデーション手法を用いて,リコールと精度で分類精度を判定した。
提案手法は, 従来の特徴抽出法よりも, 分類精度を30%から37%向上した。
数値形式分類の使用により、TSシステムの信頼性が向上する。
関連論文リスト
- STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - A pipeline and comparative study of 12 machine learning models for text
classification [0.0]
テキストベースのコミュニケーションは、特にビジネス環境では、コミュニケーション方法として非常に好まれる。
テキスト分類のための多くの機械学習手法が提案され、ほとんどのメールプロバイダのサービスに組み込まれている。
しかし、テキスト分類アルゴリズムを最適化し、攻撃性に関する適切なトレードオフを見つけることは、依然として大きな研究課題である。
論文 参考訳(メタデータ) (2022-04-04T23:51:22Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Selecting and combining complementary feature representations and
classifiers for hate speech detection [6.745479230590518]
ヘイトスピーチは、毎日発生する大量のデータのために、ソーシャルネットワークにおいて大きな問題である。
最近の研究は、憎しみのあるポストと単に皮肉や攻撃的な言語を区別するために必要なニュアンスを扱う機械学習(ML)の有用性を示している。
この研究は、複数の特徴抽出手法と異なる分類モデルの組み合わせが必要であると主張している。
論文 参考訳(メタデータ) (2022-01-18T03:46:49Z) - Speech Emotion Recognition Using Deep Sparse Auto-Encoder Extreme
Learning Machine with a New Weighting Scheme and Spectro-Temporal Features
Along with Classical Feature Selection and A New Quantum-Inspired Dimension
Reduction Method [3.8073142980733]
音声信号に基づく音声感情認識システム(SER)を提案する。
このシステムは,特徴抽出,特徴選択,最後に特徴分類という3つの段階から構成される。
従来の重み付け法よりも効率的なクラス不均衡に対処する新しい重み付け法も提案されている。
論文 参考訳(メタデータ) (2021-11-13T11:09:38Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Does a Hybrid Neural Network based Feature Selection Model Improve Text
Classification? [9.23545668304066]
関連する特徴を得るためのハイブリッド特徴選択手法を提案する。
次に、特徴選択とニューラルネットワークパイプラインを実装する3つの方法を示す。
また,いくつかのデータセットの精度もわずかに向上した。
論文 参考訳(メタデータ) (2021-01-22T09:12:19Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。