論文の概要: Get away with less: Need of source side data curation to build parallel corpus for low resource Machine Translation
- arxiv url: http://arxiv.org/abs/2601.08629v1
- Date: Tue, 13 Jan 2026 15:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.251019
- Title: Get away with less: Need of source side data curation to build parallel corpus for low resource Machine Translation
- Title(参考訳): 低リソースのMachine Translationのための並列コーパスを構築するには、ソースサイドのデータキュレーションが必要です。
- Authors: Saumitra Yadav, Manish Shrivastava,
- Abstract要約: 我々は、ソース文をスクリーニングして効率的なパラレルテキストを形成するフレームワークを開発する。
既存のデータセットと合成データセットの両方から複雑な文を学習することにより,翻訳品質を著しく向上させる。
このアプローチは、トレーニングデータ要求を減らすことでMTシステムのトレーニングコストを削減するだけでなく、データ拡張におけるLALITAの有用性を示す。
- 参考スコア(独自算出の注目度): 3.3393607383304253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data curation is a critical yet under-researched step in the machine translation training paradigm. To train translation systems, data acquisition relies primarily on human translations and digital parallel sources or, to a limited degree, synthetic generation. But, for low-resource languages, human translation to generate sufficient data is prohibitively expensive. Therefore, it is crucial to develop a framework that screens source sentences to form efficient parallel text, ensuring optimal MT system performance in low-resource environments. We approach this by evaluating English-Hindi bi-text to determine effective sentence selection strategies for optimal MT system training. Our extensively tested framework, (Lexical And Linguistically Informed Text Analysis) LALITA, targets source sentence selection using lexical and linguistic features to curate parallel corpora. We find that by training mostly on complex sentences from both existing and synthetic datasets, our method significantly improves translation quality. We test this by simulating low-resource data availabilty with curated datasets of 50K to 800K English sentences and report improved performances on all data sizes. LALITA demonstrates remarkable efficiency, reducing data needs by more than half across multiple languages (Hindi, Odia, Nepali, Norwegian Nynorsk, and German). This approach not only reduces MT systems training cost by reducing training data requirement, but also showcases LALITA's utility in data augmentation.
- Abstract(参考訳): データキュレーションは、機械翻訳トレーニングのパラダイムにおいて、重要かつ未研究のステップである。
翻訳システムを訓練するために、データ取得は主に人間の翻訳とデジタル並列ソース、あるいは限られた合成生成に依存している。
しかし、低リソース言語では、十分なデータを生成するための人間の翻訳は違法に高価である。
そのため、低リソース環境下での最適MTシステム性能を確保するため、ソース文をスクリーニングして効率的な並列テキストを生成するフレームワークを開発することが不可欠である。
我々は、最適なMTシステムトレーニングのための効果的な文選択戦略を決定するために、英語とヒンディー語のバイテキストを評価することで、この問題に対処する。
LALITA(Lexical and Linguistically Informed Text Analysis)は,語彙的および言語的特徴を用いたソース文選択を目標とし,並列コーパスをキュレートする。
既存のデータセットと合成データセットの両方から複雑な文を学習することにより,翻訳品質を著しく向上させる。
我々は、低リソースデータアベイラビリティを50Kから800Kの英語文のキュレートされたデータセットでシミュレートし、すべてのデータサイズの性能改善を報告する。
LALITAは顕著な効率性を示し、複数の言語(ヒンディー語、オディア語、ネパール語、ノルウェーのニノルスク語、ドイツ語)でデータニーズを半分以上削減している。
このアプローチは、トレーニングデータ要求を減らすことでMTシステムのトレーニングコストを削減するだけでなく、データ拡張におけるLALITAの有用性を示す。
関連論文リスト
- Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Textual Augmentation Techniques Applied to Low Resource Machine
Translation: Case of Swahili [1.9686054517684888]
機械翻訳において、世界中の言語ペアのほとんどは、ほとんど並列データがないため、低リソースと見なされている。
テキスト分類タスクで広く使われている3つの単純なデータ拡張手法を研究・適用する。
多様なデータセットでより広範な実験を行う場合には、これらの手法をニューラルネットワーク翻訳に使用する可能性がある。
論文 参考訳(メタデータ) (2023-06-12T20:43:24Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Selecting Backtranslated Data from Multiple Sources for Improved Neural
Machine Translation [8.554761233491236]
我々は、ルールベース、フレーズベース統計システム、ニューラルMTシステムで翻訳されたデータが、新しいMTシステムに与える影響を分析する。
我々は、高品質なMTシステムを維持しながら、使用するデータ量を減らすために、異なるデータ選択戦略を利用する。
論文 参考訳(メタデータ) (2020-05-01T10:50:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。