論文の概要: A Feature Engineering Approach for Literary and Colloquial Tamil Speech Classification using 1D-CNN
- arxiv url: http://arxiv.org/abs/2409.14348v1
- Date: Sun, 22 Sep 2024 07:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 23:04:03.906028
- Title: A Feature Engineering Approach for Literary and Colloquial Tamil Speech Classification using 1D-CNN
- Title(参考訳): 1D-CNNを用いた文字・口語タミル音声分類のための特徴工学的アプローチ
- Authors: M. Nanmalar, S. Johanan Joysingh, P. Vijayalakshmi, T. Nagarajan,
- Abstract要約: コンピュータが両方の形式の言語を受理し、処理し、会話できるように、フロントエンドシステムを提案する。
時間にわたって特徴の包絡を学習する1次元畳み込みニューラルネットワーク(1D-CNN)を提案する。
提案された1D-CNNは手作りの特徴を使って訓練され、F1スコアは0.9803、MFCCで訓練されたF1スコアは0.9895である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In ideal human computer interaction (HCI), the colloquial form of a language would be preferred by most users, since it is the form used in their day-to-day conversations. However, there is also an undeniable necessity to preserve the formal literary form. By embracing the new and preserving the old, both service to the common man (practicality) and service to the language itself (conservation) can be rendered. Hence, it is ideal for computers to have the ability to accept, process, and converse in both forms of the language, as required. To address this, it is first necessary to identify the form of the input speech, which in the current work is between literary and colloquial Tamil speech. Such a front-end system must consist of a simple, effective, and lightweight classifier that is trained on a few effective features that are capable of capturing the underlying patterns of the speech signal. To accomplish this, a one-dimensional convolutional neural network (1D-CNN) that learns the envelope of features across time, is proposed. The network is trained on a select number of handcrafted features initially, and then on Mel frequency cepstral coefficients (MFCC) for comparison. The handcrafted features were selected to address various aspects of speech such as the spectral and temporal characteristics, prosody, and voice quality. The features are initially analyzed by considering ten parallel utterances and observing the trend of each feature with respect to time. The proposed 1D-CNN, trained using the handcrafted features, offers an F1 score of 0.9803, while that trained on the MFCC offers an F1 score of 0.9895. In light of this, feature ablation and feature combination are explored. When the best ranked handcrafted features, from the feature ablation study, are combined with the MFCC, they offer the best results with an F1 score of 0.9946.
- Abstract(参考訳): 理想的なヒューマンコンピュータインタラクション(HCI)では、日常会話で使用される形式であるため、言語の口語形式がほとんどのユーザーに好まれる。
しかし、形式的な文体を維持する必要もない。
新しいものを受け入れ、古いものを保存することで、共通の人へのサービス(実践性)と言語自体へのサービス(保存性)の両方をレンダリングすることができる。
したがって、コンピュータが必要に応じて両方の言語形式で受け入れ、処理し、会話する能力を持つことは理想的である。
この問題に対処するためには、まず入力音声の形式を特定することが必要である。
このようなフロントエンドシステムは、音声信号の基本となるパターンを捉えることができるいくつかの効果的な特徴に基づいて訓練された、シンプルで効果的で軽量な分類器でなければならない。
これを実現するために、時間をかけて特徴の包絡を学習する1次元畳み込みニューラルネットワーク(1D-CNN)を提案する。
このネットワークは、最初は特定の手作りの特徴に基づいて訓練され、その後Mel周波数ケプストラム係数(MFCC)を用いて比較を行う。
音声のスペクトル特性や時間特性,韻律,声質など,音声の様々な側面に対処するために,手作りの特徴が選択された。
特徴は、まず10の並行発話を考慮し、時間に関する各特徴の傾向を観察することによって分析される。
提案された1D-CNNは手作りの特徴を使って訓練され、F1スコアは0.9803、MFCCで訓練されたF1スコアは0.9895である。
これを踏まえて、特徴アブレーションと特徴の組み合わせを探索する。
最高の手工芸品がMFCCと組み合わせられる場合、F1スコアは0.9946である。
関連論文リスト
- Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming [0.0]
ミニオムニ(Mini-Omni)は、リアルタイム音声対話が可能な音声ベースのエンドツーエンド会話モデルである。
そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能を向上させる手法を提案する。
また、最適化音声出力のための微調整モデルにVoiceAssistant-400Kデータセットを導入する。
論文 参考訳(メタデータ) (2024-08-29T17:18:53Z) - Quartered Spectral Envelope and 1D-CNN-based Classification of Normally Phonated and Whispered Speech [0.0]
フーリエ変換のスペクトル包絡には, 正常音声におけるピッチとピッチの高調波の存在と, ささやき音声が存在しないことが明らかである。
これらの特徴を捉えるために1次元畳み込みニューラルネットワーク(1D-CNN)を提案する。
このシステムは、wTIMITデータセットでトレーニングされテストされたときに99.31%、CHAINSデータセットで100%の精度が得られる。
論文 参考訳(メタデータ) (2024-08-25T07:17:11Z) - Syllable based DNN-HMM Cantonese Speech to Text System [3.976127530758402]
本稿では,音節ベース音響モデルを用いたカントーン音声テキスト(STT)システムを構築する。
OnCに基づく音節音響モデリングは、単語誤り率(WER)が9.66%、リアルタイム係数(RTF)が1.38812で最高の性能を達成する。
論文 参考訳(メタデータ) (2024-02-13T20:54:24Z) - SALMONN: Towards Generic Hearing Abilities for Large Language Models [24.73033723114979]
音声音声言語音楽オープンニューラルネットワークSALMONNを提案する。
事前訓練されたテキストベースの大規模言語モデル(LLM)と音声および音声エンコーダを単一のマルチモーダルモデルに統合することによって構築される。
これは、そのタイプの最初のモデルであり、汎用的な聴覚能力を持つAIへのステップと見なすことができる。
論文 参考訳(メタデータ) (2023-10-20T05:41:57Z) - Skill-Based Few-Shot Selection for In-Context Learning [123.26522773708683]
Skill-KNNは、文脈内学習のためのスキルベースの少ショット選択手法である。
モデルはトレーニングや微調整を必要とせず、頻繁に銀行を拡大したり変更したりするのに適している。
5つのドメイン間セマンティックパーシングデータセットと6つのバックボーンモデルによる実験結果から、Skill-KNNは既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T16:28:29Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Cross-Modal Mutual Learning for Cued Speech Recognition [10.225972737967249]
マルチモーダルインタラクションを促進するためのトランスフォーマーに基づく相互学習フレームワークを提案する。
我々のモデルは、モダリティ固有の異なるモダリティの情報に、モダリティ不変のコードブックを通らせるよう強制する。
中国語のための大規模多話者CSデータセットを新たに構築する。
論文 参考訳(メタデータ) (2022-12-02T10:45:33Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。