論文の概要: Improving Low-Resource Machine Translation via Round-Trip Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.12535v1
- Date: Sun, 18 Jan 2026 18:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.669417
- Title: Improving Low-Resource Machine Translation via Round-Trip Reinforcement Learning
- Title(参考訳): ラウンドトリップ強化学習による低リソース機械翻訳の改善
- Authors: Ahmed Attia, Alham Fikri,
- Abstract要約: 低リソース環境における翻訳のための自己教師付き強化学習に基づく微調整について検討する。
我々のアプローチでは、chrF++とBLEUを組み合わせて、英語をターゲットとする低リソース言語に変換し、その後、英語に戻す。
私たちは、中央アイマラ語、フリウリア語、ウーロフ語、ロシア語の言語の改善を一貫して観察する。
- 参考スコア(独自算出の注目度): 0.36398711296758063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-resource machine translation (MT) has gained increasing attention as parallel data from low-resource language communities is collected, but many potential methods for improving low-resource MT remain unexplored. We investigate a self-supervised reinforcement-learning-based fine-tuning for translation in low-resource settings using round-trip bootstrapping with the No Language Left Behind (NLLB) family of models. Our approach translates English into a target low-resource language and then back into English, using a combination of chrF++ and BLEU as the reward function on the reconstructed English sentences. Using the NLLB-MD dataset, we evaluate both the 600M and 1.3B parameter NLLB models and observe consistent improvements for the following languages: Central Aymara, Friulian, Wolof and Russian. Qualitative inspection of translation outputs indicates increased fluency and semantic fidelity. We argue that our method can further benefit from scale, enabling models to increasingly leverage their pretrained knowledge and continue self-improving.
- Abstract(参考訳): 低リソース言語コミュニティからの並列データ収集により,低リソース機械翻訳(MT)が注目を集めている。
我々は,NLLB(No Language Left Behind)モデルを用いたラウンドトリップブートストトラップを用いた,低リソース環境における自己教師付き強化学習に基づく翻訳のための微調整について検討した。
提案手法では,chrF++ と BLEU を組み合わせて構築した英語文の報酬関数として使用することにより,英語を低リソース言語に翻訳し,その後英語に戻す。
NLLB-MD データセットを用いて600M と 1.3B のパラメータ NLLB モデルを評価し,中央アイマラ,フリウリアン,ヴォルフ,ロシア語の各言語で一貫した改良点を観察した。
翻訳出力の質的検査は、拡散率と意味的忠実度の増加を示す。
提案手法は,モデルが事前学習した知識をますます活用し,自己改善の継続を可能にするため,スケールのメリットをさらに高めることができると論じる。
関連論文リスト
- Improving Low-Resource Translation with Dictionary-Guided Fine-Tuning and RL: A Spanish-to-Wayuunaiki Study [0.27998963147546146]
本稿では、外部辞書ツールとエンドツーエンドのトレーニングモデルを統合することにより、低リソース言語への翻訳を強化する新しいアプローチを提案する。
モデルが生成中のバイリンガル辞書を選択的に参照できるツール拡張型意思決定問題として翻訳を行う。
予備的な結果から, ツール拡張モデルでは, これまでの作業よりも+3.37BLEUの改善が達成された。
論文 参考訳(メタデータ) (2025-08-26T23:50:55Z) - Data Augmentation With Back translation for Low Resource languages: A case of English and Luganda [0.0]
本稿では,英語とルガンダ語を併用したニューラル機械翻訳モデルを構築するための半教師付き手法として,バック翻訳の適用について検討する。
提案手法では,公開データとウェブクローリングデータの両方を用いて独自のNMTモデルを構築し,反復および増分バック翻訳手法を適用した。
その結果,英ラガンダ対の翻訳性能は,全翻訳方向の10点以上のBLEUスコアユニットで過去のベンチマークを上回った。
論文 参考訳(メタデータ) (2025-05-05T08:47:52Z) - Is Small Language Model the Silver Bullet to Low-Resource Languages Machine Translation? [18.975160361440597]
低リソース言語 (LRL) には十分な言語資源がなく、ベンチマークデータセットでは不足している。
本研究では,200言語を対象に,最先端の小型言語モデルを体系的に評価する。
論文 参考訳(メタデータ) (2025-03-31T13:56:03Z) - Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Challenges in Adapting Multilingual LLMs to Low-Resource Languages using LoRA PEFT Tuning [0.4194295877935868]
本研究では,ローランド適応 (LoRA) -高効率ファインチューニング (PEFT) がマラウイの多言語Gemmaモデルに及ぼす影響について検討した。
52,000対の命令応答対を持つ翻訳データセットを用いて、評価結果が微調整後に低下する一方で、手動による評価では、微調整されたモデルが元のモデルよりも優れていることがしばしば示唆されている。
論文 参考訳(メタデータ) (2024-11-27T18:14:38Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Semi-supervised Neural Machine Translation with Consistency
Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。
具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。
実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-04-02T15:24:08Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。