論文の概要: Bhaasha, Bhasa, Zaban: A Survey for Low-Resourced Languages in South Asia -- Current Stage and Challenges
- arxiv url: http://arxiv.org/abs/2509.11570v1
- Date: Mon, 15 Sep 2025 04:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.145754
- Title: Bhaasha, Bhasa, Zaban: A Survey for Low-Resourced Languages in South Asia -- Current Stage and Challenges
- Title(参考訳): Bhaasha, Bhasa, Zaban: 南アジアにおける低リソース言語調査の現状と課題
- Authors: Sampoorna Poria, Xiaolei Huang,
- Abstract要約: 本調査は,南アジア諸言語におけるNLPモデルの現状と課題について考察する。
データ、モデル、タスクという3つの重要な側面にまたがる進歩とギャップを提示します。
私たちの発見は、重要なドメイン(例えば、健康)に欠落したデータ、コードミキシング、標準化された評価ベンチマークの欠如など、大きな問題を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 2.261759428153489
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Rapid developments of large language models have revolutionized many NLP tasks for English data. Unfortunately, the models and their evaluations for low-resource languages are being overlooked, especially for languages in South Asia. Although there are more than 650 languages in South Asia, many of them either have very limited computational resources or are missing from existing language models. Thus, a concrete question to be answered is: Can we assess the current stage and challenges to inform our NLP community and facilitate model developments for South Asian languages? In this survey, we have comprehensively examined current efforts and challenges of NLP models for South Asian languages by retrieving studies since 2020, with a focus on transformer-based models, such as BERT, T5, & GPT. We present advances and gaps across 3 essential aspects: data, models, & tasks, such as available data sources, fine-tuning strategies, & domain applications. Our findings highlight substantial issues, including missing data in critical domains (e.g., health), code-mixing, and lack of standardized evaluation benchmarks. Our survey aims to raise awareness within the NLP community for more targeted data curation, unify benchmarks tailored to cultural and linguistic nuances of South Asia, and encourage an equitable representation of South Asian languages. The complete list of resources is available at: https://github.com/trust-nlp/LM4SouthAsia-Survey.
- Abstract(参考訳): 大規模言語モデルの急速な発展は、英語データのための多くのNLPタスクに革命をもたらした。
残念なことに、低リソース言語に対するモデルとその評価は、特に南アジアの言語では見過ごされている。
南アジアには650以上の言語があるが、それらの多くは非常に限られた計算資源を持っているか、既存の言語モデルに欠けている。
NLPコミュニティに通知し、南アジア言語のためのモデル開発を促進するための現状と課題を評価できますか?
本調査では,2020年以降の研究から, BERT, T5, GPTなどのトランスフォーマーモデルに着目し, 南アジア言語におけるNLPモデルの現状と課題を総合的に検討した。
データ、モデル、タスク、利用可能なデータソース、微調整戦略、ドメインアプリケーションという3つの重要な側面にまたがる進歩とギャップを提示します。
私たちの発見は、重要なドメイン(例えば、健康)におけるデータ不足、コードミキシング、標準化された評価ベンチマークの欠如など、大きな問題を浮き彫りにした。
本調査は,NLPコミュニティにおける,より対象とするデータキュレーションの意識を高め,南アジアの文化的・言語的ニュアンスに合わせたベンチマークを統一し,南アジア言語の公平な表現を促進することを目的としている。
リソースの完全なリストは、https://github.com/trust-nlp/LM4SouthAsia-Survey.comで公開されている。
関連論文リスト
- Enhancing NER Performance in Low-Resource Pakistani Languages using Cross-Lingual Data Augmentation [7.383944919243126]
本研究では,4つの低リソースパキスタン語に対する文化的に妥当な文と実験を生成するデータ拡張手法を提案する。
マルチ言語マスキングされたLarge Language Models (LLMs) を微調整することにより,シャフフヒとパシュトーのNER性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-04-07T15:18:34Z) - NaijaNLP: A Survey of Nigerian Low-Resource Languages [0.0]
3つの言語(Hausa、Yorub'a、Igbo)がナイジェリアの話し言葉の約60%を占めている。
これらの言語は、計算言語学におけるタスクを支援するリソースが不足しているため、低リソースに分類される。
本研究は,ナイジェリアの3大言語を対象とした低リソースNLP(LR-NLP)研究の進展を概観する。
論文 参考訳(メタデータ) (2025-02-27T05:48:51Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Recent Advancements and Challenges of Turkic Central Asian Language Processing [4.189204855014775]
中央アジアのトルコ語に対するNLPの研究は、典型的に低リソースの言語課題に直面している。
最近の進歩には、言語固有のデータセットの収集や、下流タスクのためのモデルの開発が含まれる。
論文 参考訳(メタデータ) (2024-07-06T08:58:26Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Computational historical linguistics and language diversity in South
Asia [1.5293427903448025]
南アジアには多くの言語があり、その多くは新しい言語技術にアクセスできない。
この言語多様性はまた、比較言語学、接触言語学、歴史言語学の研究にともなう研究環境をもたらす。
我々は、南アジアの言語技術の発達において、データの散らばりが主要な障害であると主張している。
論文 参考訳(メタデータ) (2022-03-23T16:36:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。