論文の概要: INDIC DIALECT: A Multi Task Benchmark to Evaluate and Translate in Indian Language Dialects
- arxiv url: http://arxiv.org/abs/2601.10388v1
- Date: Thu, 15 Jan 2026 13:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.146786
- Title: INDIC DIALECT: A Multi Task Benchmark to Evaluate and Translate in Indian Language Dialects
- Title(参考訳): INDIC DIALECT:インド語方言の評価と翻訳のためのマルチタスクベンチマーク
- Authors: Tarun Sharma, Manikandan Ravikiran, Sourava Kumar Behera, Pramit Bhattacharya, Arnab Bhattacharya, Rohit Saluja,
- Abstract要約: インドではヒンディー語が世界で3番目に話されている言語(6億人以上の話者)であるにもかかわらず、多くの方言はいまだに表現されていない。
我々は,11の方言と2つの言語(ヒンディー語とオディア語)にまたがる13k文対の並列コーパスであるINDIC-DIALECTを紹介する。
- 参考スコア(独自算出の注目度): 10.663878830823043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent NLP advances focus primarily on standardized languages, leaving most low-resource dialects under-served especially in Indian scenarios. In India, the issue is particularly important: despite Hindi being the third most spoken language globally (over 600 million speakers), its numerous dialects remain underrepresented. The situation is similar for Odia, which has around 45 million speakers. While some datasets exist which contain standard Hindi and Odia languages, their regional dialects have almost no web presence. We introduce INDIC-DIALECT, a human-curated parallel corpus of 13k sentence pairs spanning 11 dialects and 2 languages: Hindi and Odia. Using this corpus, we construct a multi-task benchmark with three tasks: dialect classification, multiple-choice question (MCQ) answering, and machine translation (MT). Our experiments show that LLMs like GPT-4o and Gemini 2.5 perform poorly on the classification task. While fine-tuned transformer based models pretrained on Indian languages substantially improve performance e.g., improving F1 from 19.6\% to 89.8\% on dialect classification. For dialect to language translation, we find that hybrid AI model achieves highest BLEU score of 61.32 compared to the baseline score of 23.36. Interestingly, due to complexity in generating dialect sentences, we observe that for language to dialect translation the ``rule-based followed by AI" approach achieves best BLEU score of 48.44 compared to the baseline score of 27.59. INDIC-DIALECT thus is a new benchmark for dialect-aware Indic NLP, and we plan to release it as open source to support further work on low-resource Indian dialects.
- Abstract(参考訳): 最近のNLPの進歩は、主に標準化された言語に焦点を当てており、特にインドのシナリオでは、ほとんどの低リソースの方言が不足している。
インドでは、ヒンディー語が世界で3番目に話されている言語(6億人以上の話者)であるにもかかわらず、多くの方言はいまだに表現されていない。
この状況は、約4500万人の話者を抱えるOdiaと似ている。
標準ヒンディー語やオディア語を含むいくつかのデータセットが存在するが、その地域方言はウェブの存在はほとんどない。
我々は,11の方言と2つの言語(ヒンディー語とオディア語)にまたがる13k文対の並列コーパスであるINDIC-DIALECTを紹介する。
このコーパスを用いて、方言分類、複数選択質問(MCQ)回答、機械翻訳(MT)の3つのタスクからなるマルチタスクベンチマークを構築する。
実験の結果, GPT-4o や Gemini 2.5 のような LLM は, 分類作業において不十分であることがわかった。
インドの言語で事前訓練された微調整トランスフォーマーベースのモデルでは、例えば、F1を19.6\%から89.8\%に改善した。
方言から言語への翻訳では、ハイブリッドAIモデルが最も高いBLEUスコアは61.32であり、ベースラインスコアは23.36である。
興味深いことに、方言文を生成するのが複雑であるため、言語から方言への翻訳において、'rule-based followed by AI' のアプローチは、ベースラインスコア27.59に比べて48.44のBLEUスコアを達成している。
したがって、INDIC-DIALECTは、方言を意識したIndic NLPの新しいベンチマークであり、低リソースのインド方言のさらなる研究を支援するために、オープンソースとして公開する予定である。
関連論文リスト
- DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation [111.94720088481614]
多モーダル生成モデルは方言テキスト入力を効果的に生成できるのか?
6つの共通英語方言にまたがる大規模ベンチマークを構築した。
マルチモーダル生成モデルのための一般的なエンコーダに基づく緩和戦略を設計する。
論文 参考訳(メタデータ) (2025-10-16T17:56:55Z) - L3Cube-IndicHeadline-ID: A Dataset for Headline Identification and Semantic Evaluation in Low-Resource Indian Languages [2.584263027095689]
L3Cube-IndicHeadline-IDは、10の低リソースIndic言語にまたがるキュレートデータセットである。
各言語には2万のニュース記事と4つの見出しの変種が含まれている。
このタスクは、記事と見出しの類似性を使ってオプションから正しい見出しを選択する必要がある。
我々は、コサイン類似性を用いて、多言語モデルや言語特化モデルを含む複数の文変換器をベンチマークする。
論文 参考訳(メタデータ) (2025-09-02T16:54:30Z) - LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems [16.143694951047024]
LAHAJAというベンチマークを作成し、様々なトピックやユースケースに関する読み書き音声を含む。
LAHAJAの既存のオープンソースおよび商用モデルを評価し,その性能が劣っていることを確認した。
異なるデータセットを使用してモデルをトレーニングし、優れた話者多様性を持つ多言語データに基づいてトレーニングしたモデルが、既存のモデルよりもかなりのマージンで優れていることを確認する。
論文 参考訳(メタデータ) (2024-08-21T08:51:00Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - MATra: A Multilingual Attentive Transliteration System for Indian
Scripts [0.0]
本稿では,以下の5言語のうちの任意のペア間で音訳を行うことができるモデルを示す。
このモデルは最先端の言語(5つの言語の中で全てのペア)を破り、トップ1の精度スコアは80.7%に達した。
論文 参考訳(メタデータ) (2022-08-23T08:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。