論文の概要: TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation
- arxiv url: http://arxiv.org/abs/2508.08680v1
- Date: Tue, 12 Aug 2025 06:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.328405
- Title: TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation
- Title(参考訳): TopXGen: 低リソース機械翻訳のためのトピックディバース並列データ生成
- Authors: Armel Zebaze, Benoît Sagot, Rachel Bawden,
- Abstract要約: 我々は、低リソース言語(LRL)における高品質でトピックの多元データ生成のためのアプローチであるtextscTopXGen を提示する。
我々の直感では、LLMはLRLに翻訳するのに苦労するが、HRLに翻訳する能力とその多言語性により、良質で自然に聞こえるターゲットサイドのテキストを生成することができる。
- 参考スコア(独自算出の注目度): 20.704153242284114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have been shown to perform well in machine translation (MT) with the use of in-context learning (ICL), rivaling supervised models when translating into high-resource languages (HRLs). However, they lag behind when translating into low-resource language (LRLs). Example selection via similarity search and supervised fine-tuning help. However the improvements they give are limited by the size, quality and diversity of existing parallel datasets. A common technique in low-resource MT is synthetic parallel data creation, the most frequent of which is backtranslation, whereby existing target-side texts are automatically translated into the source language. However, this assumes the existence of good quality and relevant target-side texts, which are not readily available for many LRLs. In this paper, we present \textsc{TopXGen}, an LLM-based approach for the generation of high quality and topic-diverse data in multiple LRLs, which can then be backtranslated to produce useful and diverse parallel texts for ICL and fine-tuning. Our intuition is that while LLMs struggle to translate into LRLs, their ability to translate well into HRLs and their multilinguality enable them to generate good quality, natural-sounding target-side texts, which can be translated well into a high-resource source language. We show that \textsc{TopXGen} boosts LLM translation performance during fine-tuning and in-context learning. Code and outputs are available at https://github.com/ArmelRandy/topxgen.
- Abstract(参考訳): LLMは、高ソース言語(HRL)に翻訳する際に教師付きモデルと競合する、インコンテキスト学習(ICL)を用いて、機械翻訳(MT)でよく機能することが示されている。
しかし、低リソース言語(LRL)への変換には遅れがある。
類似検索と教師付き微調整ヘルプによるサンプル選択。
しかし、それらが与える改善は、既存の並列データセットのサイズ、品質、多様性によって制限される。
低リソースMTにおける一般的な手法は合成並列データ生成であり、最も頻繁に使われるのは逆変換であり、既存のターゲット側のテキストはソース言語に自動的に変換される。
しかし、これは多くのLRLでは利用できない品質と関連するターゲットサイドテキストの存在を前提としている。
本稿では,複数のLRLにおいて高品質でトピックの多元データを生成するための LLM ベースのアプローチである \textsc{TopXGen} について述べる。
我々の直感では、LLMはLRLへの翻訳に苦労するが、HRLへの翻訳能力とその多言語化により、高品質で自然に聞こえるターゲットサイドのテキストを生成することができ、高ソース言語に翻訳することができる。
In-context Learning において, \textsc{TopXGen} が LLM 翻訳性能を向上させることを示す。
コードと出力はhttps://github.com/ArmelRandy/topxgen.comで入手できる。
関連論文リスト
- Just Go Parallel: Improving the Multilingual Capabilities of Large Language Models [59.21082876068122]
大規模言語モデル(LLM)は、並列データに対して明示的に訓練されることなく、印象的な翻訳能力を実証している。
近年の研究では、トレーニングデータに付随するバイリンガル信号が原因であることが示唆されている。
多言語エンコーダベースおよびエンコーダデコーダ言語モデルの多言語能力を高めるために,並列データの有用性を最大化する様々な手法が提案されている。
論文 参考訳(メタデータ) (2025-06-16T02:21:15Z) - Is LLM the Silver Bullet to Low-Resource Languages Machine Translation? [14.55410092719299]
低リソース言語(LRL)は、言語資源の制限と標準データセットの表現不足により、自然言語処理において重大な課題を呈している。
近年のLarge Language Models (LLMs) とNeural Machine Translationの進歩により、高リソース言語への翻訳機能が大幅に改善されている。
本稿では,200言語における現在のLLMを体系的に評価し,LRL翻訳能力の限界を示す。
論文 参考訳(メタデータ) (2025-03-31T13:56:03Z) - Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Improving Target-side Lexical Transfer in Multilingual Neural Machine
Translation [104.10726545151043]
マルチリンガルデータは、LRLからターゲット言語に翻訳するNMTモデルにとって、LRLに翻訳するモデルよりも有益であることが判明した。
実験の結果,DecSDEは最大1.8BLEUの英語から4つの言語への翻訳において一貫した向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-04T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。