Fugu-MT 論文翻訳(概要): Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings

論文の概要: Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings

arxiv url: http://arxiv.org/abs/2411.05986v1
Date: Fri, 08 Nov 2024 21:55:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.000962
Title: Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings
Title（参考訳）: 誤り重度マッピングを用いた機械翻訳の微粒化リワード最適化
Authors: Miguel Moura Ramos, Tomás Almeida, Daniel Vareta, Filipe Azevedo, Sweta Agrawal, Patrick Fernandes, André F. T. Martins,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク翻訳システムのトレーニングにおいて、効果的で堅牢な方法であることが証明されている。本稿では,RL法により微細なトークンレベルの報酬機構を活用する新しい手法を提案する。文レベルと微粒な報酬信号が翻訳品質に与える影響を比較するために, 小型・大規模翻訳データセットの実験を行った。
参考スコア（独自算出の注目度）: 25.851419860597407
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has been proven to be an effective and robust method for training neural machine translation systems, especially when paired with powerful reward models that accurately assess translation quality. However, most research has focused on RL methods that use sentence-level feedback, which leads to inefficient learning signals due to the reward sparsity problem -- the model receives a single score for the entire sentence. To address this, we introduce a novel approach that leverages fine-grained token-level reward mechanisms with RL methods. We use xCOMET, a state-of-the-art quality estimation system as our token-level reward model. xCOMET provides detailed feedback by predicting fine-grained error spans and their severity given source-translation pairs. We conduct experiments on small and large translation datasets to compare the impact of sentence-level versus fine-grained reward signals on translation quality. Our results show that training with token-level rewards improves translation quality across language pairs over baselines according to automatic and human evaluation. Furthermore, token-level reward optimization also improves training stability, evidenced by a steady increase in mean rewards over training epochs.
Abstract（参考訳）: 強化学習(RL)は、特に翻訳品質を正確に評価する強力な報酬モデルと組み合わせることで、ニューラルネットワーク翻訳システムのトレーニングに効果的で堅牢な方法であることが証明されている。しかし、ほとんどの研究は、文レベルのフィードバックを使用するRL手法に焦点を当てており、報酬空間の問題による非効率な学習信号につながる。この問題に対処するために,RL法により微細なトークンレベルの報酬機構を活用する新しい手法を提案する。我々はトークンレベルの報酬モデルとして,最先端の品質評価システムであるxCOMETを使用している。 xCOMETは、ソース-トランスレーションのペアに対して、きめ細かいエラースパンとその重大度を予測することで、詳細なフィードバックを提供する。文レベルと微粒な報酬信号が翻訳品質に与える影響を比較するために, 小型・大規模翻訳データセットの実験を行った。この結果から,トークンレベルの報酬を用いた学習は,ベースラインを越えた言語ペア間の翻訳品質を,自動的および人的評価により向上させることが示された。さらに、トークンレベルの報酬最適化はトレーニングの安定性も向上し、トレーニングのエポックよりも平均報酬が着実に増加することが証明されている。

関連論文リスト

PEGRL: Improving Machine Translation by Post-Editing Guided Reinforcement Learning [54.19784655270799]
textbfPEGRLは、後編集を補助タスクとして用い、トレーニングを安定させ、全体的な最適化を導く2段階のRLフレームワークである。英語$to$Finnish、英語$to$Turkish、英語$leftrightarrow$ Chineseでの実験は、RLベースラインよりも一貫した利得を示している。
論文参考訳（メタデータ） (2026-02-03T10:22:55Z)
Low-Resource English-Tigrinya MT: Leveraging Multilingual Models, Custom Tokenizers, and Clean Evaluation Benchmarks [6.177998679139308]
ニューラルネットワーク翻訳(NMT)の進歩にもかかわらず、Tigrinyaのような低リソース言語はいまだに保存されていない。本稿では,多言語事前学習モデルを用いた翻訳学習手法について検討し,形態的に豊かな低リソース言語に対する翻訳品質を向上させる。
論文参考訳（メタデータ） (2025-09-24T15:02:57Z)
Estimating Machine Translation Difficulty [48.659971048116766]
翻訳難易度推定のタスクを形式化し、その翻訳の期待品質に基づいてテキストの難易度を定義する。本稿では,機械翻訳のためのより困難なベンチマークを構築するために,難易度推定器の実用性を示す。難易度推定のための2つの改良されたモデル、Sentinel-src-24とSentinel-src-25をリリースする。
論文参考訳（メタデータ） (2025-08-13T20:22:58Z)
RIVAL: Reinforcement Learning with Iterative and Adversarial Optimization for Machine Translation [33.79108789619648]
大規模言語モデル(LLM)は、強い多言語機能を有し、ヒューマンフィードバックからの強化学習と翻訳タスクを組み合わせることは大きな可能性を示している。このパラダイムは、単語の字幕翻訳タスクに適用した場合、予期せぬ性能が低下するのを観察する。本稿では,RM と LLM の間の min-max ゲームとしてプロセスを定式化する,対角的学習フレームワーク RIVAL を提案する。
論文参考訳（メタデータ） (2025-06-05T14:18:21Z)
Calibrating Translation Decoding with Quality Estimation on LLMs [11.005120269309412]
本稿では,分布から見た翻訳品質を考慮した仮説のキャリブレーション手法を提案する。本手法では,大規模言語モデル (LLM) の翻訳は,限られた訓練後に大幅に改善される。結果として得られた最先端の翻訳モデルは、付随するコードと人間の評価データとともに、10の言語をカバーする。
論文参考訳（メタデータ） (2025-04-26T22:38:47Z)
ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文参考訳（メタデータ） (2025-02-16T16:31:00Z)
R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
Advancing Translation Preference Modeling with RLHF: A Step Towards Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文参考訳（メタデータ） (2024-02-18T09:51:49Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文参考訳（メタデータ） (2024-01-23T16:07:43Z)
Aligning Neural Machine Translation Models: Human Feedback in Training and Inference [27.84975767573212]
RLHF(Reinforcement Learning from Human feedback)は、言語モデルによって生成されたテキストの品質を向上させる技術である。人間のアノテーションからトレーニングされたメトリクスを報酬モデルとして容易に利用できる機械翻訳(MT)では、最小ベイズリスクデコーディングと再ランクを用いた手法が最終品質の向上に成功している。
論文参考訳（メタデータ） (2023-11-15T17:21:58Z)
Strategies for improving low resource speech to text translation relying on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文参考訳（メタデータ） (2023-05-31T21:58:07Z)
Semi-supervised Neural Machine Translation with Consistency Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文参考訳（メタデータ） (2023-04-02T15:24:08Z)
Non-Parametric Online Learning from Human Feedback for Neural Machine Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文参考訳（メタデータ） (2021-09-23T04:26:15Z)
Improving Multilingual Translation by Representation and Gradient Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文参考訳（メタデータ） (2021-09-10T10:52:21Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)
Detecting over/under-translation errors for determining adequacy in human translations [0.0]
本稿では,翻訳評価における誤りチェックの一部として,OT/UT(Over and Under translations)の新たな手法を提案する。我々は、機械翻訳(mt)出力に制限はせず、特に人間が生成した翻訳パイプラインでアプリケーションをターゲットにしています。本システムの目的は、人間の翻訳ビデオ字幕からOT/UTエラーを高いエラーリコールで識別することである。
論文参考訳（メタデータ） (2021-04-01T06:06:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。