論文の概要: CLewR: Curriculum Learning with Restarts for Machine Translation Preference Learning
- arxiv url: http://arxiv.org/abs/2601.05858v1
- Date: Fri, 09 Jan 2026 15:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.009315
- Title: CLewR: Curriculum Learning with Restarts for Machine Translation Preference Learning
- Title(参考訳): CLewR: 機械翻訳選好学習のための再スタートによるカリキュラム学習
- Authors: Alexandra Dragomir, Florin Brad, Radu Tudor Ionescu,
- Abstract要約: 大言語モデル(LLM)は、ゼロショット多言語機械翻訳(MT)において競合性能を示した。
いくつかのフォローアップ作業は、好みの最適化を通じてMTのパフォーマンスをさらに改善するが、主に探索されていない重要な側面、すなわちトレーニング中にデータサンプルが与えられる順序を残している。
MT性能を向上させるために,カリキュラム学習を様々な最先端の選好最適化アルゴリズムに統合することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 61.359141900956125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated competitive performance in zero-shot multilingual machine translation (MT). Some follow-up works further improved MT performance via preference optimization, but they leave a key aspect largely underexplored: the order in which data samples are given during training. We address this topic by integrating curriculum learning into various state-of-the-art preference optimization algorithms to boost MT performance. We introduce a novel curriculum learning strategy with restarts (CLewR), which reiterates easy-to-hard curriculum multiple times during training to effectively mitigate the catastrophic forgetting of easy examples. We demonstrate consistent gains across several model families (Gemma2, Qwen2.5, Llama3.1) and preference optimization techniques. We publicly release our code at https://github.com/alexandra-dragomir/CLewR.
- Abstract(参考訳): 大規模言語モデル (LLM) はゼロショット多言語機械翻訳 (MT) において競合性能を示した。
いくつかのフォローアップ作業は、好みの最適化を通じてMTのパフォーマンスをさらに改善するが、主に探索されていない重要な側面、すなわちトレーニング中にデータサンプルが与えられる順序を残している。
MT性能を向上させるために,カリキュラム学習を様々な最先端の選好最適化アルゴリズムに統合することで,この問題に対処する。
本稿では,再スタートによる新しいカリキュラム学習戦略 (CLewR) を提案する。
いくつかのモデルファミリ(Gemma2, Qwen2.5, Llama3.1)と選好最適化手法)で一貫した利得を示す。
コードについてはhttps://github.com/alexandra-dragomir/CLewR.comで公開しています。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Making LLMs Better Many-to-Many Speech-to-Text Translators with Curriculum Learning [32.883836078329665]
MLLM(Multimodal Large Language Models)は、音声テキスト翻訳(S2TT)タスクにおいて大きな成功を収めている。
本稿では,大規模言語モデルの機械翻訳機能を活用し,S2TTタスクに適応する3段階のカリキュラム学習戦略を提案する。
実験結果から,提案手法は15時間14ドルの言語対で最先端の平均性能を実現することが示された。
論文 参考訳(メタデータ) (2024-09-29T01:48:09Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Learning Kernel-Smoothed Machine Translation with Retrieved Examples [30.17061384497846]
データベースから類似の例を検索して翻訳プロセスを導く既存の非パラメトリックアプローチは有望であるが、検索した例に過度に適合する傾向にある。
我々は、ニューラルネットワーク翻訳モデルをオンラインで適応するための効果的なアプローチであるKSTER(Kernel-Smoothed Translation with Example Retrieval)を学習することを提案する。
論文 参考訳(メタデータ) (2021-09-21T06:42:53Z) - Netmarble AI Center's WMT21 Automatic Post-Editing Shared Task
Submission [6.043109546012043]
本稿では,Netmarble による WMT21 Automatic Post-Editing (APE) Shared Task for the English-German Language pairについて述べる。
Facebook FairのWMT19ニュース翻訳モデルは、大規模で強力なトレーニング済みニューラルネットワークを扱うために選ばれた。
性能向上のために、トレーニング後および微調整時に、外部翻訳を拡張機械翻訳(MT)として活用する。
論文 参考訳(メタデータ) (2021-09-14T08:21:18Z) - Recipes for Adapting Pre-trained Monolingual and Multilingual Models to
Machine Translation [50.0258495437314]
機械翻訳(MT)における事前学習モデルの微調整において、凍結パラメータの利点と欠点と新しいパラメータの追加について検討する。
BARTでは、モデルパラメータの大部分を凍結し、追加の位置埋め込みを追加することで、最高のパフォーマンスを得ることができます。
mBARTでは、ほとんどの言語ペアがエンコーダで、ほとんどのデコーダはフリーズして、素早い微調整のパフォーマンスにマッチするか、向上します。
論文 参考訳(メタデータ) (2020-04-30T16:09:22Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。