論文の概要: An Overview of Indian Spoken Language Recognition from Machine Learning
Perspective
- arxiv url: http://arxiv.org/abs/2212.03812v1
- Date: Wed, 30 Nov 2022 11:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 19:00:08.583228
- Title: An Overview of Indian Spoken Language Recognition from Machine Learning
Perspective
- Title(参考訳): 機械学習からみたインド語話者認識の概観
- Authors: Spandan Dey, Md Sahidullah, Goutam Saha
- Abstract要約: この研究は、インドの言語認識研究分野の包括的なレビューを行う最初の試みの1つである。
インドにおけるLIDシステム開発における低リソース・相互影響の独特な課題を強調するために,インディース分析が提案されている。
- 参考スコア(独自算出の注目度): 7.27448284043116
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic spoken language identification (LID) is a very important research
field in the era of multilingual voice-command-based human-computer interaction
(HCI). A front-end LID module helps to improve the performance of many
speech-based applications in the multilingual scenario. India is a populous
country with diverse cultures and languages. The majority of the Indian
population needs to use their respective native languages for verbal
interaction with machines. Therefore, the development of efficient Indian
spoken language recognition systems is useful for adapting smart technologies
in every section of Indian society. The field of Indian LID has started gaining
momentum in the last two decades, mainly due to the development of several
standard multilingual speech corpora for the Indian languages. Even though
significant research progress has already been made in this field, to the best
of our knowledge, there are not many attempts to analytically review them
collectively. In this work, we have conducted one of the very first attempts to
present a comprehensive review of the Indian spoken language recognition
research field. In-depth analysis has been presented to emphasize the unique
challenges of low-resource and mutual influences for developing LID systems in
the Indian contexts. Several essential aspects of the Indian LID research, such
as the detailed description of the available speech corpora, the major research
contributions, including the earlier attempts based on statistical modeling to
the recent approaches based on different neural network architectures, and the
future research trends are discussed. This review work will help assess the
state of the present Indian LID research by any active researcher or any
research enthusiasts from related fields.
- Abstract(参考訳): 自動音声言語識別(LID)は、多言語音声コマンドベースヒューマンコンピュータインタラクション(HCI)の時代において、非常に重要な研究分野である。
フロントエンドのLIDモジュールは、多言語シナリオにおける多くの音声ベースのアプリケーションの性能向上に役立つ。
インドは多様な文化と言語を持つ人口の多い国である。
インディアンの大多数は、それぞれの母国語を機械との言語的相互作用に利用する必要がある。
したがって、効率的なインド音声認識システムの開発は、インド社会のあらゆる分野におけるスマートテクノロジーの適応に有用である。
インドのLIDの分野は、主にインドの言語のための標準多言語音声コーパスの開発により、過去20年間に勢いを増し始めている。
この分野ではすでに大きな研究が進められているが、私たちの知る限りでは、それらを分析的にレビューする試みはそれほど多くない。
本研究では,インド語話者認識研究分野の包括的レビューを提示する最初の試みの1つを行った。
インドにおけるLIDシステム開発における低リソース・相互影響の独特な課題を強調するために詳細な分析が提案されている。
インドにおけるLID研究のいくつかの重要な側面として、利用可能な音声コーパスの詳細な説明、様々なニューラルネットワークアーキテクチャに基づく最近のアプローチへの統計的モデリングに基づく以前の試み、今後の研究動向などが挙げられる。
このレビューは、活動的な研究者や関連分野の研究愛好家による現在のインドのLID研究の状況を評価するのに役立つだろう。
関連論文リスト
- From Statistical Methods to Pre-Trained Models; A Survey on Automatic Speech Recognition for Resource Scarce Urdu Language [41.272055304311905]
本稿では,東南アジア諸国で広く話されている資源制約のあるウルドゥー語について述べる。
ウルドゥーASRにおける将来の研究の現在の研究動向、技術進歩、および潜在的方向性について概説する。
論文 参考訳(メタデータ) (2024-11-20T17:39:56Z) - How Do Multilingual Models Remember? Investigating Multilingual Factual Recall Mechanisms [50.13632788453612]
大規模言語モデル(LLM)は、事前訓練中に取得した膨大な事実知識を格納し、取得する。
これらのプロセスが他の言語や多言語 LLM にどのように一般化されるのかという問題は未解明のままである。
言語がリコールプロセスにおいてどのような役割を果たすのかを考察し,言語に依存しない,言語に依存したメカニズムの証拠を明らかにする。
論文 参考訳(メタデータ) (2024-10-18T11:39:34Z) - LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems [16.143694951047024]
LAHAJAというベンチマークを作成し、様々なトピックやユースケースに関する読み書き音声を含む。
LAHAJAの既存のオープンソースおよび商用モデルを評価し,その性能が劣っていることを確認した。
異なるデータセットを使用してモデルをトレーニングし、優れた話者多様性を持つ多言語データに基づいてトレーニングしたモデルが、既存のモデルよりもかなりのマージンで優れていることを確認する。
論文 参考訳(メタデータ) (2024-08-21T08:51:00Z) - Decoding the Diversity: A Review of the Indic AI Research Landscape [0.7864304771129751]
インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなどインド亜大陸で話されている言語である。
本稿では,Indic言語における大規模言語モデル(LLM)研究の方向性について概観する。
論文 参考訳(メタデータ) (2024-06-13T19:55:20Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z) - Exploiting Spectral Augmentation for Code-Switched Spoken Language
Identification [2.064612766965483]
音声によるLIDを3つのインド語で実行し、それを英語と混合する。
このタスクは、Microsoftの研究チームによって、話し言葉のLIDチャレンジとして組織された。
論文 参考訳(メタデータ) (2020-10-14T14:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。