論文の概要: Parallel Corpora for Machine Translation in Low-resource Indic Languages: A Comprehensive Review
- arxiv url: http://arxiv.org/abs/2503.04797v1
- Date: Sun, 02 Mar 2025 21:22:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 08:47:06.254879
- Title: Parallel Corpora for Machine Translation in Low-resource Indic Languages: A Comprehensive Review
- Title(参考訳): 低リソースインデックス言語における機械翻訳のための並列コーパス:包括的レビュー
- Authors: Rahul Raja, Arpita Vats,
- Abstract要約: 本稿では、Indic言語で利用可能な並列コーパスについて概観する。
コーパス作成における課題として,言語的多様性,スクリプトのバリエーション,データ不足などについて批判的に検討する。
言語間変換学習の活用,多言語データセットの拡張,翻訳品質向上のためのマルチモーダルリソースの統合など,今後の方向性について概説する。
- 参考スコア(独自算出の注目度): 2.377892000761193
- License:
- Abstract: Parallel corpora play an important role in training machine translation (MT) models, particularly for low-resource languages where high-quality bilingual data is scarce. This review provides a comprehensive overview of available parallel corpora for Indic languages, which span diverse linguistic families, scripts, and regional variations. We categorize these corpora into text-to-text, code-switched, and various categories of multimodal datasets, highlighting their significance in the development of robust multilingual MT systems. Beyond resource enumeration, we critically examine the challenges faced in corpus creation, including linguistic diversity, script variation, data scarcity, and the prevalence of informal textual content.We also discuss and evaluate these corpora in various terms such as alignment quality and domain representativeness. Furthermore, we address open challenges such as data imbalance across Indic languages, the trade-off between quality and quantity, and the impact of noisy, informal, and dialectal data on MT performance. Finally, we outline future directions, including leveraging cross-lingual transfer learning, expanding multilingual datasets, and integrating multimodal resources to enhance translation quality. To the best of our knowledge, this paper presents the first comprehensive review of parallel corpora specifically tailored for low-resource Indic languages in the context of machine translation.
- Abstract(参考訳): 並列コーパスは、特に高品質のバイリンガルデータが不足している低リソース言語において、トレーニング機械翻訳(MT)モデルにおいて重要な役割を果たす。
本総説では,多種多様な言語族,スクリプト,地域的バリエーションにまたがるIndic言語における並列コーパスについて概説する。
我々はこれらのコーパスをテキスト・トゥ・テキスト、コード・スイッチング、マルチモーダル・データセットの様々なカテゴリに分類し、堅牢な多言語MTシステムの開発におけるそれらの重要性を強調した。
資源列挙以外にも、言語的多様性、スクリプトのバリエーション、データ不足、非公式なテキストコンテンツの普及など、コーパス作成で直面する課題について批判的に検討し、アライメント品質やドメイン代表性など様々な用語で議論・評価する。
さらに、Indic言語間のデータ不均衡、品質と量間のトレードオフ、ノイズ、非公式、方言データがMTのパフォーマンスに与える影響といったオープンな課題に対処する。
最後に,言語間変換学習の活用,多言語データセットの拡張,翻訳品質向上のためのマルチモーダルリソースの統合など,今後の方向性について概説する。
本稿では,機械翻訳の文脈において,低リソースのIndic言語に適した並列コーパスの総合的なレビューを行う。
関連論文リスト
- BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation [28.456351723077088]
このデータセットは、まず英語以外の言語で手作りされている。
それぞれのソース言語は、世界の人口の半分が一般的に使っている23の言語に代表される。
論文 参考訳(メタデータ) (2025-02-06T18:56:37Z) - Cross-lingual Text Classification Transfer: The Case of Ukrainian [11.508759658889382]
ウクライナ語は、言語間の方法論の継続的な洗練の恩恵を受けることができる言語である。
我々の知る限り、典型的なテキスト分類タスクにはウクライナのコーパスが欠如している。
本研究では,NLPの最先端技術を活用し,言語間知識伝達手法を探索する。
論文 参考訳(メタデータ) (2024-04-02T15:37:09Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Modeling Bilingual Conversational Characteristics for Neural Chat
Translation [24.94474722693084]
上記の特性をモデル化して会話テキストの翻訳品質を高めることを目的としている。
我々は、ベンチマークデータセットBConTrasT(英語-ドイツ語)と、BMELD(英語-中国語)という自己コンパイルバイリンガル対話コーパスに対するアプローチを評価した。
我々のアプローチは,強いベースラインよりも高いマージンで性能を向上し,BLEUとTERの観点から,最先端のコンテキスト対応NMTモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2021-07-23T12:23:34Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。