論文の概要: An Overview of Indian Spoken Language Recognition from Machine Learning
Perspective
- arxiv url: http://arxiv.org/abs/2212.03812v1
- Date: Wed, 30 Nov 2022 11:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 19:00:08.583228
- Title: An Overview of Indian Spoken Language Recognition from Machine Learning
Perspective
- Title(参考訳): 機械学習からみたインド語話者認識の概観
- Authors: Spandan Dey, Md Sahidullah, Goutam Saha
- Abstract要約: この研究は、インドの言語認識研究分野の包括的なレビューを行う最初の試みの1つである。
インドにおけるLIDシステム開発における低リソース・相互影響の独特な課題を強調するために,インディース分析が提案されている。
- 参考スコア(独自算出の注目度): 7.27448284043116
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic spoken language identification (LID) is a very important research
field in the era of multilingual voice-command-based human-computer interaction
(HCI). A front-end LID module helps to improve the performance of many
speech-based applications in the multilingual scenario. India is a populous
country with diverse cultures and languages. The majority of the Indian
population needs to use their respective native languages for verbal
interaction with machines. Therefore, the development of efficient Indian
spoken language recognition systems is useful for adapting smart technologies
in every section of Indian society. The field of Indian LID has started gaining
momentum in the last two decades, mainly due to the development of several
standard multilingual speech corpora for the Indian languages. Even though
significant research progress has already been made in this field, to the best
of our knowledge, there are not many attempts to analytically review them
collectively. In this work, we have conducted one of the very first attempts to
present a comprehensive review of the Indian spoken language recognition
research field. In-depth analysis has been presented to emphasize the unique
challenges of low-resource and mutual influences for developing LID systems in
the Indian contexts. Several essential aspects of the Indian LID research, such
as the detailed description of the available speech corpora, the major research
contributions, including the earlier attempts based on statistical modeling to
the recent approaches based on different neural network architectures, and the
future research trends are discussed. This review work will help assess the
state of the present Indian LID research by any active researcher or any
research enthusiasts from related fields.
- Abstract(参考訳): 自動音声言語識別(LID)は、多言語音声コマンドベースヒューマンコンピュータインタラクション(HCI)の時代において、非常に重要な研究分野である。
フロントエンドのLIDモジュールは、多言語シナリオにおける多くの音声ベースのアプリケーションの性能向上に役立つ。
インドは多様な文化と言語を持つ人口の多い国である。
インディアンの大多数は、それぞれの母国語を機械との言語的相互作用に利用する必要がある。
したがって、効率的なインド音声認識システムの開発は、インド社会のあらゆる分野におけるスマートテクノロジーの適応に有用である。
インドのLIDの分野は、主にインドの言語のための標準多言語音声コーパスの開発により、過去20年間に勢いを増し始めている。
この分野ではすでに大きな研究が進められているが、私たちの知る限りでは、それらを分析的にレビューする試みはそれほど多くない。
本研究では,インド語話者認識研究分野の包括的レビューを提示する最初の試みの1つを行った。
インドにおけるLIDシステム開発における低リソース・相互影響の独特な課題を強調するために詳細な分析が提案されている。
インドにおけるLID研究のいくつかの重要な側面として、利用可能な音声コーパスの詳細な説明、様々なニューラルネットワークアーキテクチャに基づく最近のアプローチへの統計的モデリングに基づく以前の試み、今後の研究動向などが挙げられる。
このレビューは、活動的な研究者や関連分野の研究愛好家による現在のインドのLID研究の状況を評価するのに役立つだろう。
関連論文リスト
- Decoding the Diversity: A Review of the Indic AI Research Landscape [0.7864304771129751]
インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなどインド亜大陸で話されている言語である。
本稿では,Indic言語における大規模言語モデル(LLM)研究の方向性について概観する。
論文 参考訳(メタデータ) (2024-06-13T19:55:20Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - Multilingual Evaluation of Semantic Textual Relatedness [0.0]
意味的テクスト関係性(STR)は、言語的要素や話題、感情、視点といった非言語的要素を考慮して、表面的な単語重複を越えている。
以前のNLP研究は主に英語に焦点を合わせており、言語間の適用性を制限している。
Marathi、Hindi、スペイン語、英語でSTRを探索し、情報検索や機械翻訳などの可能性を解き放つ。
論文 参考訳(メタデータ) (2024-04-13T17:16:03Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Model Adaptation for ASR in low-resource Indian Languages [28.02064068964355]
近年,wav2vec2のような自己教師付き学習(SSL)ベースの音響モデルとWhisperのような大規模多言語学習によって,音声認識(ASR)の性能が大幅に向上している。
オーディオとテキストの両方の可用性が制限されている低リソース言語には、依然として大きな課題があります。
ここで多くの適応と微調整のテクニックが適用され、十分なリソースを持つ類似言語を利用することで、データの低リソースの性質を克服できるのです。
言語における音響データの豊富さによって、大きなテキストのみのコーパスの必要性が軽減される場合もあります。
論文 参考訳(メタデータ) (2023-07-16T05:25:51Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Exploiting Spectral Augmentation for Code-Switched Spoken Language
Identification [2.064612766965483]
音声によるLIDを3つのインド語で実行し、それを英語と混合する。
このタスクは、Microsoftの研究チームによって、話し言葉のLIDチャレンジとして組織された。
論文 参考訳(メタデータ) (2020-10-14T14:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。