論文の概要: Literary and Colloquial Tamil Dialect Identification
- arxiv url: http://arxiv.org/abs/2408.13739v1
- Date: Sun, 25 Aug 2024 06:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:09:49.702547
- Title: Literary and Colloquial Tamil Dialect Identification
- Title(参考訳): リテラリーと口語タミル方言の同定
- Authors: M. Nanmalar, P. Vijayalakshmi, T. Nagarajan,
- Abstract要約: リテラリー・タミル (LT) とコロキール・タミル (CT) の方言識別 (DID) は未発見の研究分野である。
ガウス混合モデル(GMM)と畳み込みニューラルネットワーク(CNN)の2つの暗黙的手法を含む5つの手法を探索する。
87.72%(GMM)、93.97%(CNN)、89.24%(PPR)、94.21%(P-LVCSR)、88.57%(UPR-1)、93.53%(P-LVCSR)、94.55%(UPR-2)である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Culture and language evolve together. The old literary form of Tamil is used commonly for writing and the contemporary colloquial Tamil is used for speaking. Human-computer interaction applications require Colloquial Tamil (CT) to make it more accessible and easy for the everyday user and, it requires Literary Tamil (LT) when information is needed in a formal written format. Continuing the use of LT alongside CT in computer aided language learning applications will both preserve LT, and provide ease of use via CT, at the same time. Hence there is a need for the conversion between LT and CT dialects, which demands as a first step, dialect identification. Dialect Identification (DID) of LT and CT is an unexplored area of research. In the current work, keeping the nuances of both these dialects in mind, five methods are explored which include two implicit methods - Gaussian Mixture Model (GMM) and Convolutional Neural Network (CNN); two explicit methods - Parallel Phone Recognition (PPR) and Parallel Large Vocabulary Continuous Speech Recognition (P-LVCSR); two versions of the proposed explicit Unified Phone Recognition method (UPR-1 and UPR-2). These methods vary based on: the need for annotated data, the size of the unit, the way in which modelling is carried out, and the way in which the final decision is made. Even though the average duration of the test utterances is less - 4.9s for LT and 2.5s for CT - the systems performed well, offering the following identification accuracies: 87.72% (GMM), 93.97% (CNN), 89.24% (PPR), 94.21% (P-LVCSR), 88.57% (UPR-1), 93.53% (UPR-1 with P-LVCSR), 94.55% (UPR-2), and 95.61% (UPR-2 with P-LVCSR).
- Abstract(参考訳): 文化と言語は共に進化する。
タミル語の古い文体は書くのに一般的に使われ、現代の口語であるタミル語は話すのに使われている。
人間とコンピュータのインタラクションアプリケーションでは、Colloquial Tamil (CT) が日常のユーザにとってよりアクセスしやすく、簡単になり、公式の書式で情報を必要とする場合、Literary Tamil (LT) が要求される。
コンピュータ支援言語学習アプリケーションにおいて、CTと共にLTを継続することは、LTを保存し、同時にCTによる使いやすさを提供する。
したがって、最初のステップである方言識別を要求するLT方言とCT方言の変換が必要である。
LTとCTの方言識別(DID)は未発見の研究領域である。
両方言のニュアンスを念頭に置いて, ガウス混合モデル (GMM) と畳み込みニューラルネットワーク (CNN) の2つの暗黙的手法, 並列音声認識 (PPR) と並列大語彙連続音声認識 (P-LVCSR) の2つの明示的手法, 提案された明示的統一音声認識 (UPR-1, UPR-2) の2つのバージョンについて検討した。
これらの方法は、注釈付きデータの必要性、ユニットのサイズ、モデリングの方法、最終的な決定の方法などによって異なる。
平均発声時間は LT が 4.9 、CT が 2.5 であるにもかかわらず、このシステムはよく機能し、87.72% (GMM)、93.97% (CNN)、89.24% (PPR)、94.21% (P-LVCSR)、88.57% (UPR-1)、93.53% (UPR-1 with P-LVCSR)、94.55% (UPR-2)、95.61% (UPR-2 with P-LVCSR) である。
関連論文リスト
- A Feature Engineering Approach for Literary and Colloquial Tamil Speech Classification using 1D-CNN [0.0]
コンピュータが両方の形式の言語を受理し、処理し、会話できるように、フロントエンドシステムを提案する。
時間にわたって特徴の包絡を学習する1次元畳み込みニューラルネットワーク(1D-CNN)を提案する。
提案された1D-CNNは手作りの特徴を使って訓練され、F1スコアは0.9803、MFCCで訓練されたF1スコアは0.9895である。
論文 参考訳(メタデータ) (2024-09-22T07:20:42Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Deep LSTM Spoken Term Detection using Wav2Vec 2.0 Recognizer [0.0]
本稿では,DNN-HMMハイブリッドASRの従来の発音語彙に含まれる知識を,グラフベースのWav2Vecの文脈に転送するブートストラップ手法について述べる。
提案手法は、DNN-HMMハイブリッドASRと音素認識器の組み合わせにより、英語とチェコ語の両方のMALACHデータに対する大きなマージンで、これまで公表されていたシステムより優れている。
論文 参考訳(メタデータ) (2022-10-21T11:26:59Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z) - Language-agnostic BERT Sentence Embedding [14.241717104817713]
単言語および言語間表現の学習に最適な方法を組み合わせることで,多言語文の埋め込みを学習する方法を検討する。
事前学習した多言語言語モデルを導入することで,性能向上に必要な並列トレーニングデータの量を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2020-07-03T17:58:42Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。