論文の概要: An Overview of Indian Spoken Language Recognition from Machine Learning
Perspective
- arxiv url: http://arxiv.org/abs/2212.03812v1
- Date: Wed, 30 Nov 2022 11:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 19:00:08.583228
- Title: An Overview of Indian Spoken Language Recognition from Machine Learning
Perspective
- Title(参考訳): 機械学習からみたインド語話者認識の概観
- Authors: Spandan Dey, Md Sahidullah, Goutam Saha
- Abstract要約: この研究は、インドの言語認識研究分野の包括的なレビューを行う最初の試みの1つである。
インドにおけるLIDシステム開発における低リソース・相互影響の独特な課題を強調するために,インディース分析が提案されている。
- 参考スコア(独自算出の注目度): 7.27448284043116
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic spoken language identification (LID) is a very important research
field in the era of multilingual voice-command-based human-computer interaction
(HCI). A front-end LID module helps to improve the performance of many
speech-based applications in the multilingual scenario. India is a populous
country with diverse cultures and languages. The majority of the Indian
population needs to use their respective native languages for verbal
interaction with machines. Therefore, the development of efficient Indian
spoken language recognition systems is useful for adapting smart technologies
in every section of Indian society. The field of Indian LID has started gaining
momentum in the last two decades, mainly due to the development of several
standard multilingual speech corpora for the Indian languages. Even though
significant research progress has already been made in this field, to the best
of our knowledge, there are not many attempts to analytically review them
collectively. In this work, we have conducted one of the very first attempts to
present a comprehensive review of the Indian spoken language recognition
research field. In-depth analysis has been presented to emphasize the unique
challenges of low-resource and mutual influences for developing LID systems in
the Indian contexts. Several essential aspects of the Indian LID research, such
as the detailed description of the available speech corpora, the major research
contributions, including the earlier attempts based on statistical modeling to
the recent approaches based on different neural network architectures, and the
future research trends are discussed. This review work will help assess the
state of the present Indian LID research by any active researcher or any
research enthusiasts from related fields.
- Abstract(参考訳): 自動音声言語識別(LID)は、多言語音声コマンドベースヒューマンコンピュータインタラクション(HCI)の時代において、非常に重要な研究分野である。
フロントエンドのLIDモジュールは、多言語シナリオにおける多くの音声ベースのアプリケーションの性能向上に役立つ。
インドは多様な文化と言語を持つ人口の多い国である。
インディアンの大多数は、それぞれの母国語を機械との言語的相互作用に利用する必要がある。
したがって、効率的なインド音声認識システムの開発は、インド社会のあらゆる分野におけるスマートテクノロジーの適応に有用である。
インドのLIDの分野は、主にインドの言語のための標準多言語音声コーパスの開発により、過去20年間に勢いを増し始めている。
この分野ではすでに大きな研究が進められているが、私たちの知る限りでは、それらを分析的にレビューする試みはそれほど多くない。
本研究では,インド語話者認識研究分野の包括的レビューを提示する最初の試みの1つを行った。
インドにおけるLIDシステム開発における低リソース・相互影響の独特な課題を強調するために詳細な分析が提案されている。
インドにおけるLID研究のいくつかの重要な側面として、利用可能な音声コーパスの詳細な説明、様々なニューラルネットワークアーキテクチャに基づく最近のアプローチへの統計的モデリングに基づく以前の試み、今後の研究動向などが挙げられる。
このレビューは、活動的な研究者や関連分野の研究愛好家による現在のインドのLID研究の状況を評価するのに役立つだろう。
関連論文リスト
- Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Model Adaptation for ASR in low-resource Indian Languages [28.02064068964355]
近年,wav2vec2のような自己教師付き学習(SSL)ベースの音響モデルとWhisperのような大規模多言語学習によって,音声認識(ASR)の性能が大幅に向上している。
オーディオとテキストの両方の可用性が制限されている低リソース言語には、依然として大きな課題があります。
ここで多くの適応と微調整のテクニックが適用され、十分なリソースを持つ類似言語を利用することで、データの低リソースの性質を克服できるのです。
言語における音響データの豊富さによって、大きなテキストのみのコーパスの必要性が軽減される場合もあります。
論文 参考訳(メタデータ) (2023-07-16T05:25:51Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Taxonomic survey of Hindi Language NLP systems [0.0]
自然言語処理(NLP)は、機械による自然言語の自動処理のタスクである。
本調査では,ヒンディー語NLPで利用可能なリソースとアプリケーションについて報告する。
論文 参考訳(メタデータ) (2021-01-30T11:53:56Z) - Exploiting Spectral Augmentation for Code-Switched Spoken Language
Identification [2.064612766965483]
音声によるLIDを3つのインド語で実行し、それを英語と混合する。
このタスクは、Microsoftの研究チームによって、話し言葉のLIDチャレンジとして組織された。
論文 参考訳(メタデータ) (2020-10-14T14:37:03Z) - Cross-modal Speaker Verification and Recognition: A Multilingual
Perspective [29.314358875442778]
本研究の目的は,「対面音声アソシエーション言語は独立したのか?」と「話者は話し言葉を認識しているのか?」という,密接に関連する2つの問いに答えることである。
これに答えるために、オンラインにアップロードされたさまざまなビデオから3ドル(約3,300円)の言語アノテーションを抽出した154ドル(約1,300円)の音声クリップを含むマルチ言語音声画像データセットを収集した。
論文 参考訳(メタデータ) (2020-04-28T19:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。