論文の概要: Exploring Parameter-Efficient Fine-Tuning and Backtranslation for the WMT 25 General Translation Task
- arxiv url: http://arxiv.org/abs/2511.12109v1
- Date: Sat, 15 Nov 2025 08:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.613667
- Title: Exploring Parameter-Efficient Fine-Tuning and Backtranslation for the WMT 25 General Translation Task
- Title(参考訳): WMT25汎用翻訳タスクにおけるパラメータ効率の良い微調整と逆変換の探索
- Authors: Felipe Fujita, Hideyuki Takada,
- Abstract要約: 本研究では,日本語コーパスにおける逆翻訳と微調整の相乗効果が翻訳品質を著しく向上させることを示す。
このアプローチは、低リソースの言語ペアを改善するための軽量で強力な戦略を提供します。
- 参考スコア(独自算出の注目度): 0.12891210250935145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore the effectiveness of combining fine-tuning and backtranslation on a small Japanese corpus for neural machine translation. Starting from a baseline English{\textrightarrow}Japanese model (COMET = 0.460), we first apply backtranslation (BT) using synthetic data generated from monolingual Japanese corpora, yielding a modest increase (COMET = 0.468). Next, we fine-tune (FT) the model on a genuine small parallel dataset drawn from diverse Japanese news and literary corpora, achieving a substantial jump to COMET = 0.589 when using Mistral 7B. Finally, we integrate both backtranslation and fine-tuning{ -- }first augmenting the small dataset with BT generated examples, then adapting via FT{ -- }which further boosts performance to COMET = 0.597. These results demonstrate that, even with limited training data, the synergistic use of backtranslation and targeted fine-tuning on Japanese corpora can significantly enhance translation quality, outperforming each technique in isolation. This approach offers a lightweight yet powerful strategy for improving low-resource language pairs.
- Abstract(参考訳): 本稿では,ニューラルマシン翻訳のための小型日本語コーパスにおける微調整と逆翻訳の併用の有効性について検討する。
日本語モデル(COMET = 0.460)からはじめて,単言語日本語コーパスから生成された合成データを用いて逆翻訳(BT)を行い,モデム増加(COMET = 0.468)をもたらす。
次に,日本語の多種多様なニュースや文芸コーパスから抽出した真に小さな並列データセットのモデルを微調整し,Mistral 7Bを使用するとCOMET = 0.589に大きくジャンプする。
最後に、バックトランスレーションとファインチューニング{ -- } 最初はBT生成された例で小さなデータセットを拡張し、次にFT{ -- } を通じて適応することで、COMET = 0.597にパフォーマンスを向上します。
これらの結果から,日本語コーパスにおける後方翻訳と目標微調整の相乗効果は,限られた訓練データであっても翻訳品質を著しく向上させ,各手法の独立性に優れていたことが示唆された。
このアプローチは、低リソースの言語ペアを改善するための軽量で強力な戦略を提供します。
関連論文リスト
- The Saturation Point of Backtranslation in High Quality Low Resource English Gujarati Machine Translation [0.0]
バックトランスレーションBTは低リソース機械翻訳MTにおいてモノリンガルコーパスを用いた追加の合成訓練データを生成するために広く利用されている。
多言語事前学習MBART50モデルを用いた英語グジャラート翻訳における逆翻訳の有効性について検討する。
論文 参考訳(メタデータ) (2025-06-12T09:02:53Z) - Data Augmentation With Back translation for Low Resource languages: A case of English and Luganda [0.0]
本稿では,英語とルガンダ語を併用したニューラル機械翻訳モデルを構築するための半教師付き手法として,バック翻訳の適用について検討する。
提案手法では,公開データとウェブクローリングデータの両方を用いて独自のNMTモデルを構築し,反復および増分バック翻訳手法を適用した。
その結果,英ラガンダ対の翻訳性能は,全翻訳方向の10点以上のBLEUスコアユニットで過去のベンチマークを上回った。
論文 参考訳(メタデータ) (2025-05-05T08:47:52Z) - Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - How Far Can 100 Samples Go? Unlocking Overall Zero-Shot Multilingual
Translation via Tiny Multi-Parallel Data [10.286714403840355]
リソースを消費する一般的な解決策は、トレーニングコーパスに可能な限り多くの関連する翻訳方向を追加することである。
英語中心のモデルでは、非常に少量のマルチ並列データで簡単に微調整することで驚くほど大きなゼロショット改善が達成できることを示す。
論文 参考訳(メタデータ) (2024-01-22T23:55:00Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - End-to-End Training for Back-Translation with Categorical Reparameterization Trick [0.0]
バックトランスレーションは、ニューラルネットワーク翻訳(NMT)における効果的な半教師付き学習フレームワークである
事前学習されたNMTモデルは、モノリンガル文を翻訳し、他のNMTモデルのトレーニングのために合成バイリンガル文ペアを作成する。
翻訳文の離散的性質は、情報勾配が2つのNMTモデル間で流れるのを防ぐ。
論文 参考訳(メタデータ) (2022-02-17T06:31:03Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。