論文の概要: Leveraging the Cross-Domain & Cross-Linguistic Corpus for Low Resource NMT: A Case Study On Bhili-Hindi-English Parallel Corpus
- arxiv url: http://arxiv.org/abs/2511.00486v1
- Date: Sat, 01 Nov 2025 10:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.801072
- Title: Leveraging the Cross-Domain & Cross-Linguistic Corpus for Low Resource NMT: A Case Study On Bhili-Hindi-English Parallel Corpus
- Title(参考訳): 低資源NMTにおけるクロスドメイン・クロス言語コーパスの活用:Bhili-Hindi- English Parallel Corpusを事例として
- Authors: Pooja Singh, Shashwat Bhardwaj, Vaibhav Sharma, Sandeep Kumar,
- Abstract要約: インドにおける言語的な多様性は、特にビリ語のような少数民族言語に対して、機械翻訳に重大な課題をもたらす。
本稿では,Bhili-Hindi-English Parallel Corpus (BH EPC)について述べる。
BH EPCは教育、管理、ニュースといった重要な領域にまたがっており、低リソース機械翻訳の研究のための貴重なベンチマークを確立している。
- 参考スコア(独自算出の注目度): 3.435561406656216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The linguistic diversity of India poses significant machine translation challenges, especially for underrepresented tribal languages like Bhili, which lack high-quality linguistic resources. This paper addresses the gap by introducing Bhili-Hindi-English Parallel Corpus (BHEPC), the first and largest parallel corpus worldwide comprising 110,000 meticulously curated sentences across Bhili, Hindi, and English. The corpus was created with the assistance of expert human translators. BHEPC spans critical domains such as education, administration, and news, establishing a valuable benchmark for research in low resource machine translation. To establish a comprehensive Bhili Machine Translation benchmark, we evaluated a wide range of proprietary and open-source Multilingual Large Language Models (MLLMs) on bidirectional translation tasks between English/Hindi and Bhili. Comprehensive evaluation demonstrates that the fine-tuned NLLB-200 distilled 600M variant model outperforms others, highlighting the potential of multilingual models in low resource scenarios. Furthermore, we investigated the generative translation capabilities of multilingual LLMs on BHEPC using in-context learning, assessing performance under cross-domain generalization and quantifying distributional divergence. This work bridges a critical resource gap and promotes inclusive natural language processing technologies for low-resource and marginalized languages globally.
- Abstract(参考訳): インドの言語多様性は、特に高品質な言語資源を欠いているビリ語のような未表現の部族言語に対して、機械翻訳の重大な課題を提起している。
本稿では,Bhili-Hindi- English Parallel Corpus (BHEPC)を導入することで,このギャップを解消する。
コーパスは、専門家の人間翻訳者の助けを借りて作られた。
BHEPCは教育、管理、ニュースといった重要な領域にまたがっており、低リソース機械翻訳の研究のための貴重なベンチマークを確立している。
包括的なBhili Machine Translationベンチマークを確立するために、英語/ヒンディー語とビリ語間の双方向翻訳タスクにおいて、MLLM(Multilingual Large Language Models)を多種多様なプロプライエタリかつオープンソースで評価した。
包括的評価は、微調整されたNLLB-200蒸留600M変異モデルは、低資源シナリオにおける多言語モデルの可能性を強調し、他のモデルよりも優れていることを示している。
さらに,テキスト内学習を用いたBHEPC上での多言語LLMの生成能力について検討し,ドメイン間の一般化による性能評価と分散分散の定量化を行った。
この研究は、重要なリソースギャップを埋め、低リソースおよび疎外化言語に対する包括的自然言語処理技術を促進する。
関連論文リスト
- CUTE: A Multilingual Dataset for Enhancing Cross-Lingual Knowledge Transfer in Low-Resource Languages [5.442023270641246]
中国語,ウイグル語,チベット語,英語のデータセットを構築し,オープンソース化する。
このデータセットは、ウイグル語とチベット語のための、これまでで最大のオープンソースコーパスである。
論文 参考訳(メタデータ) (2025-09-21T04:30:49Z) - Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset (GIST) [19.91873751674613]
GISTは2000年から2023年にかけての上位AIカンファレンス論文から抽出された5K語を含む、大規模な多言語AI用語データセットである。
この用語はアラビア語、中国語、フランス語、日本語、ロシア語に翻訳され、LLMを抽出するためのハイブリッドフレームワークと翻訳のための人間の専門知識を組み合わせたものである。
データセットの品質は既存のリソースに対してベンチマークされ、クラウドソースによる評価によって、より優れた翻訳精度を示す。
論文 参考訳(メタデータ) (2024-12-24T11:50:18Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。