Fugu-MT 論文翻訳(概要): ILID: Native Script Language Identification for Indian Languages

論文の概要: ILID: Native Script Language Identification for Indian Languages

arxiv url: http://arxiv.org/abs/2507.11832v2
Date: Thu, 31 Jul 2025 14:57:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 15:10:45.238143
Title: ILID: Native Script Language Identification for Indian Languages
Title（参考訳）: ILID:インドの言語のためのネイティブスクリプト言語識別
Authors: Yash Ingle, Pruthwik Mishra,
Abstract要約: 言語識別のコア課題は、ノイズの多い、短い、そしてコード混在した環境で言語を区別することにある。英語を含む23の言語と、その言語識別子をラベル付けした22の公用語からなる250K文のデータセットをリリースする。我々のモデルは、言語識別タスクのための最先端の訓練済みトランスフォーマーモデルより優れています。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The language identification task is a crucial fundamental step in NLP. Often it serves as a pre-processing step for widely used NLP applications such as multilingual machine translation, information retrieval, question and answering, and text summarization. The core challenge of language identification lies in distinguishing languages in noisy, short, and code-mixed environments. This becomes even harder in case of diverse Indian languages that exhibit lexical and phonetic similarities, but have distinct differences. Many Indian languages share the same script, making the task even more challenging. Taking all these challenges into account, we develop and release a dataset of 250K sentences consisting of 23 languages including English and all 22 official Indian languages labeled with their language identifiers, where data in most languages are newly created. We also develop and release baseline models using state-of-the-art approaches in machine learning and fine-tuning pre-trained transformer models. Our models outperforms the state-of-the-art pre-trained transformer models for the language identification task. The dataset and the codes are available at https://yashingle-ai.github.io/ILID/ and in Huggingface open source libraries.
Abstract（参考訳）: 言語識別タスクは、NLPにおける重要な基本ステップである。多くの場合、多言語機械翻訳、情報検索、質問と回答、テキスト要約など、広く使われているNLPアプリケーションの前処理ステップとして機能する。言語識別の核心となる課題は、ノイズの多い、短い、そしてコード混在した環境で言語を区別することである。これは、語彙と音韻の類似性を示す多様なインドの言語ではさらに困難になるが、異なる相違点がある。多くのインドの言語が同じ文字を共有しており、そのタスクをさらに困難にしている。これらの課題をすべて考慮し、英語を含む23の言語と、言語識別子をラベル付けした22の公用語からなる250K文のデータセットを開発し、リリースします。また、機械学習および微調整事前学習型トランスフォーマーモデルにおける最先端アプローチを用いたベースラインモデルの開発とリリースを行う。我々のモデルは、言語識別タスクのための最先端の訓練済みトランスフォーマーモデルより優れています。データセットとコードは、https://yashingle-ai.github.io/ILID/およびHugingfaceオープンソースライブラリで利用可能である。

関連論文リスト

Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文参考訳（メタデータ） (2024-11-06T16:20:37Z)
Script-Agnostic Language Identification [21.19710835737713]
コンカニ語、カシミリ語、パンジャービ語などの現代語は、複数の文字で同期的に書かれている。いくつかの異なる実験手法を用いて,スクリプトに依存しない表現の学習を提案する。単語レベルのスクリプトランダム化と複数のスクリプトで書かれた言語への露出は、下流のスクリプトに依存しない言語識別に非常に有用である。
論文参考訳（メタデータ） (2024-06-25T19:23:42Z)
MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。 MYTEは99の言語すべてに対して短いエンコーディングを生成する。これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文参考訳（メタデータ） (2024-03-15T21:21:11Z)
Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。 10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文参考訳（メタデータ） (2024-01-31T17:58:10Z)
Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文参考訳（メタデータ） (2023-09-19T12:21:39Z)
Simple yet Effective Code-Switching Language Identification with Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文参考訳（メタデータ） (2023-05-31T11:43:16Z)
LIMIT: Language Identification, Misidentification, and Translation using Hierarchical Models in 350+ Languages [27.675441924635294]
現在のシステムは世界の7000の言語の大部分を正確に識別することはできない。まず、350以上の言語で50Kの多言語・並列児童話のコーパスMCS-350をコンパイルする。言語識別のための新しい誤予測分解階層モデル LIMIt を提案する。
論文参考訳（メタデータ） (2023-05-23T17:15:43Z)
Romanization-based Large-scale Adaptation of Multilingual Language Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文参考訳（メタデータ） (2023-04-18T09:58:34Z)
XNLI 2.0: Improving XNLI dataset and performance on Cross Lingual Understanding (XLU) [0.0]
我々は、XNLIに存在する14の言語すべてでMNLIデータセットを再翻訳することで、元のXNLIデータセットの改善に注力する。また、15言語すべてでモデルを訓練し、自然言語推論のタスクでそれらの性能を分析する実験を行った。
論文参考訳（メタデータ） (2023-01-16T17:24:57Z)
Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文参考訳（メタデータ） (2022-03-30T18:09:28Z)
Discovering Phonetic Inventories with Crosslingual Automatic Speech Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文参考訳（メタデータ） (2022-01-26T22:12:55Z)
Multilingual Text Classification for Dravidian Languages [4.264592074410622]
そこで我々はDravidian言語のための多言語テキスト分類フレームワークを提案する。一方、フレームワークはLaBSE事前訓練モデルをベースモデルとして使用した。一方,モデルが言語間の相関を十分に認識・活用できないという問題を考慮し,さらに言語固有の表現モジュールを提案する。
論文参考訳（メタデータ） (2021-12-03T04:26:49Z)
Multilingual and code-switching ASR challenges for low resource Indian languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文参考訳（メタデータ） (2021-04-01T03:37:01Z)
Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。 XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文参考訳（メタデータ） (2021-02-16T18:47:10Z)
X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文参考訳（メタデータ） (2020-10-13T05:29:56Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。