Fugu-MT 論文翻訳(概要): An Overview of Indian Spoken Language Recognition from Machine Learning Perspective

論文の概要: An Overview of Indian Spoken Language Recognition from Machine Learning Perspective

arxiv url: http://arxiv.org/abs/2212.03812v1
Date: Wed, 30 Nov 2022 11:03:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-18 19:00:08.583228
Title: An Overview of Indian Spoken Language Recognition from Machine Learning Perspective
Title（参考訳）: 機械学習からみたインド語話者認識の概観
Authors: Spandan Dey, Md Sahidullah, Goutam Saha
Abstract要約: この研究は、インドの言語認識研究分野の包括的なレビューを行う最初の試みの1つである。インドにおけるLIDシステム開発における低リソース・相互影響の独特な課題を強調するために,インディース分析が提案されている。
参考スコア（独自算出の注目度）: 7.27448284043116
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Automatic spoken language identification (LID) is a very important research field in the era of multilingual voice-command-based human-computer interaction (HCI). A front-end LID module helps to improve the performance of many speech-based applications in the multilingual scenario. India is a populous country with diverse cultures and languages. The majority of the Indian population needs to use their respective native languages for verbal interaction with machines. Therefore, the development of efficient Indian spoken language recognition systems is useful for adapting smart technologies in every section of Indian society. The field of Indian LID has started gaining momentum in the last two decades, mainly due to the development of several standard multilingual speech corpora for the Indian languages. Even though significant research progress has already been made in this field, to the best of our knowledge, there are not many attempts to analytically review them collectively. In this work, we have conducted one of the very first attempts to present a comprehensive review of the Indian spoken language recognition research field. In-depth analysis has been presented to emphasize the unique challenges of low-resource and mutual influences for developing LID systems in the Indian contexts. Several essential aspects of the Indian LID research, such as the detailed description of the available speech corpora, the major research contributions, including the earlier attempts based on statistical modeling to the recent approaches based on different neural network architectures, and the future research trends are discussed. This review work will help assess the state of the present Indian LID research by any active researcher or any research enthusiasts from related fields.
Abstract（参考訳）: 自動音声言語識別(LID)は、多言語音声コマンドベースヒューマンコンピュータインタラクション(HCI)の時代において、非常に重要な研究分野である。フロントエンドのLIDモジュールは、多言語シナリオにおける多くの音声ベースのアプリケーションの性能向上に役立つ。インドは多様な文化と言語を持つ人口の多い国である。インディアンの大多数は、それぞれの母国語を機械との言語的相互作用に利用する必要がある。したがって、効率的なインド音声認識システムの開発は、インド社会のあらゆる分野におけるスマートテクノロジーの適応に有用である。インドのLIDの分野は、主にインドの言語のための標準多言語音声コーパスの開発により、過去20年間に勢いを増し始めている。この分野ではすでに大きな研究が進められているが、私たちの知る限りでは、それらを分析的にレビューする試みはそれほど多くない。本研究では,インド語話者認識研究分野の包括的レビューを提示する最初の試みの1つを行った。インドにおけるLIDシステム開発における低リソース・相互影響の独特な課題を強調するために詳細な分析が提案されている。インドにおけるLID研究のいくつかの重要な側面として、利用可能な音声コーパスの詳細な説明、様々なニューラルネットワークアーキテクチャに基づく最近のアプローチへの統計的モデリングに基づく以前の試み、今後の研究動向などが挙げられる。このレビューは、活動的な研究者や関連分野の研究愛好家による現在のインドのLID研究の状況を評価するのに役立つだろう。

関連論文リスト

Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文参考訳（メタデータ） (2025-02-24T17:41:48Z)
Survey of Pseudonymization, Abstractive Summarization & Spell Checker for Hindi and Marathi [0.0]
本研究の目的は,英語,ヒンディー語,マラティア語でテキスト匿名化,抽象的テキスト要約,スペルチェックなど,さまざまな機能を利用できるプラットフォームを構築することである。これらのツールの目的は、主にインド地域言語を使用する企業や消費者の顧客に提供することである。
論文参考訳（メタデータ） (2024-12-24T04:51:32Z)
From Statistical Methods to Pre-Trained Models; A Survey on Automatic Speech Recognition for Resource Scarce Urdu Language [41.272055304311905]
本稿では,東南アジア諸国で広く話されている資源制約のあるウルドゥー語について述べる。ウルドゥーASRにおける将来の研究の現在の研究動向、技術進歩、および潜在的方向性について概説する。
論文参考訳（メタデータ） (2024-11-20T17:39:56Z)
How Do Multilingual Models Remember? Investigating Multilingual Factual Recall Mechanisms [50.13632788453612]
大規模言語モデル(LLM)は、事前訓練中に取得した膨大な事実知識を格納し、取得する。これらのプロセスが他の言語や多言語 LLM にどのように一般化されるのかという問題は未解明のままである。言語がリコールプロセスにおいてどのような役割を果たすのかを考察し,言語に依存しない,言語に依存したメカニズムの証拠を明らかにする。
論文参考訳（メタデータ） (2024-10-18T11:39:34Z)
LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems [16.143694951047024]
LAHAJAというベンチマークを作成し、様々なトピックやユースケースに関する読み書き音声を含む。 LAHAJAの既存のオープンソースおよび商用モデルを評価し,その性能が劣っていることを確認した。異なるデータセットを使用してモデルをトレーニングし、優れた話者多様性を持つ多言語データに基づいてトレーニングしたモデルが、既存のモデルよりもかなりのマージンで優れていることを確認する。
論文参考訳（メタデータ） (2024-08-21T08:51:00Z)
Decoding the Diversity: A Review of the Indic AI Research Landscape [0.7864304771129751]
インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなどインド亜大陸で話されている言語である。本稿では,Indic言語における大規模言語モデル(LLM)研究の方向性について概観する。
論文参考訳（メタデータ） (2024-06-13T19:55:20Z)
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文参考訳（メタデータ） (2024-05-17T17:47:39Z)
Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-05-08T05:54:54Z)
What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文参考訳（メタデータ） (2024-02-19T09:15:28Z)
Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文参考訳（メタデータ） (2023-10-23T17:42:01Z)
Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文参考訳（メタデータ） (2023-09-19T12:21:39Z)
Crossing the Conversational Chasm: A Primer on Multilingual Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。 ToDのユースケースのデータ取得は高価で面倒だ。
論文参考訳（メタデータ） (2021-04-17T15:19:56Z)
Multilingual and code-switching ASR challenges for low resource Indian languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文参考訳（メタデータ） (2021-04-01T03:37:01Z)
Exploiting Spectral Augmentation for Code-Switched Spoken Language Identification [2.064612766965483]
音声によるLIDを3つのインド語で実行し、それを英語と混合する。このタスクは、Microsoftの研究チームによって、話し言葉のLIDチャレンジとして組織された。
論文参考訳（メタデータ） (2020-10-14T14:37:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。