論文の概要: Improving Indigenous Language Machine Translation with Synthetic Data and Language-Specific Preprocessing
- arxiv url: http://arxiv.org/abs/2601.03135v1
- Date: Tue, 06 Jan 2026 16:06:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.009689
- Title: Improving Indigenous Language Machine Translation with Synthetic Data and Language-Specific Preprocessing
- Title(参考訳): 合成データと言語特化前処理による言語機械翻訳の改善
- Authors: Aashish Dhawan, Christopher Driggers-Ellis, Christan Grant, Daisy Zhe Wang,
- Abstract要約: 我々は,高容量多言語翻訳モデルを用いて合成文対を生成することで,アメリカ大陸の言語に対する並列データセットを拡張した。
グアラニ語-スペイン語とケチュア語-スペイン語の翻訳実験は、合成データ拡張による一貫したchrF++の改善を示している。
Aymaraの診断実験は、高度に凝集的な言語に対する一般的な前処理の限界を強調している。
- 参考スコア(独自算出の注目度): 5.781452568978427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-resource indigenous languages often lack the parallel corpora required for effective neural machine translation (NMT). Synthetic data generation offers a practical strategy for mitigating this limitation in data-scarce settings. In this work, we augment curated parallel datasets for indigenous languages of the Americas with synthetic sentence pairs generated using a high-capacity multilingual translation model. We fine-tune a multilingual mBART model on curated-only and synthetically augmented data and evaluate translation quality using chrF++, the primary metric used in recent AmericasNLP shared tasks for agglutinative languages. We further apply language-specific preprocessing, including orthographic normalization and noise-aware filtering, to reduce corpus artifacts. Experiments on Guarani--Spanish and Quechua--Spanish translation show consistent chrF++ improvements from synthetic data augmentation, while diagnostic experiments on Aymara highlight the limitations of generic preprocessing for highly agglutinative languages.
- Abstract(参考訳): 低リソースのネイティブ言語は、しばしば効果的なニューラルネットワーク翻訳(NMT)に必要な並列コーパスを欠いている。
合成データ生成は、この制限をデータスカース設定で緩和するための実用的な戦略を提供する。
本研究では,高容量多言語翻訳モデルを用いて合成文対を生成することで,アメリカ大陸の言語に対する並列データセットを改良する。
近年のAmericsNLPでは,多言語 mBART モデルをキュレートオンリーおよび合成拡張データ上に微調整し,chrF++ を用いて翻訳品質を評価する。
さらに、コーパスのアーティファクトを減らすために、正書法正規化やノイズ認識フィルタリングなど、言語固有の前処理を適用する。
グアラニ語-スペイン語とケチュア語-スペイン語の翻訳実験は、合成データ拡張による一貫したchrF++の改善を示し、一方、Aymaraでの診断実験は、高度に凝集的な言語に対する一般的な前処理の限界を強調している。
関連論文リスト
- BhashaKritika: Building Synthetic Pretraining Data at Scale for Indic Languages [4.279942349440352]
Indic言語のための合成多言語事前学習データの生成と評価に関する体系的研究を行う。
大規模な合成データセットBhashaKritikaを構築し,10言語で5つの異なる手法を用いて540Bトークンを構成する。
我々は、プロンプト命令と文書のグラウンド化の両方において、言語選択がデータ品質にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2025-11-13T14:12:44Z) - Exploring NLP Benchmarks in an Extremely Low-Resource Setting [21.656551146954587]
本稿では、絶滅危惧言語であるラディンに焦点を当て、特にヴァル・バディアの変種を対象とする。
我々は、単言語イタリア語データを翻訳することで、感情分析とマルチチョイス質問応答(MCQA)のための合成データセットを作成する。
論文 参考訳(メタデータ) (2025-09-04T07:41:23Z) - SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators [61.82799141938912]
既存の多言語テキストデトックス化へのアプローチは、並列多言語データセットの不足によって妨げられている。
本稿では,手動で収集・合成した多言語並列テキストデトックス化データセットであるSynthDetoxMを紹介する。
論文 参考訳(メタデータ) (2025-02-10T12:30:25Z) - Pre-training a Transformer-Based Generative Model Using a Small Sepedi Dataset [0.5530212768657544]
南アフリカのいくつかのリソースから得られたSepedi monolingual(SepMono)データセットと、ラジオニュースドメインからのSepedi Radio News(SepNews)データセットを使用します。
以上の結果から,非閉塞モデルの方が,検証損失とパープレキシティの測定において,オクルージョンベースモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-01-25T17:25:06Z) - High-Quality Data Augmentation for Low-Resource NMT: Combining a Translation Memory, a GAN Generator, and Filtering [1.8843687952462742]
本稿では,低リソース環境下でのニューラルネットワーク翻訳(NMT)を支援するために,ソース側でモノリンガルコーパスを利用する新しい手法を提案する。
この概念はGAN(Generative Adversarial Network)を用いて,低品質な合成モノリンガル翻訳とジェネレータとの干渉を緩和しつつ,識別器のトレーニングデータを増強する。
論文 参考訳(メタデータ) (2024-08-22T02:35:47Z) - Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。