論文の概要: Direct Preference Optimization for Neural Machine Translation with
Minimum Bayes Risk Decoding
- arxiv url: http://arxiv.org/abs/2311.08380v1
- Date: Tue, 14 Nov 2023 18:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:45:21.441384
- Title: Direct Preference Optimization for Neural Machine Translation with
Minimum Bayes Risk Decoding
- Title(参考訳): 最小ベイズリスク復号を用いたニューラルマシン翻訳の直接選好最適化
- Authors: Guangyu Yang, Jinghong Chen, Weizhe Lin, Bill Byrne
- Abstract要約: 本稿では、最近開発された強化学習(RL)技術、直接選好最適化(DPO)を用いて、多言語大言語モデル(MLLM)を微調整する方法を示す。
本モデルでは, 優先最適化のない基本MLLMと比較して, 複数のNMTテストセットの性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 16.724130684738697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minimum Bayes Risk (MBR) decoding can significantly improve translation
performance of Multilingual Large Language Models (MLLMs). However, MBR
decoding is computationally expensive and in this paper, we show how recently
developed Reinforcement Learning (RL) technique, Direct Preference Optimization
(DPO) can be used to fine-tune MLLMs so that we get the gains from MBR without
the additional computation in inference. Our fine-tuned models have
significantly improved performance on multiple NMT test sets compared to base
MLLMs without preference optimization. Our method boosts the translation
performance of MLLMs using relatively small monolingual fine-tuning sets.
- Abstract(参考訳): 最小ベイズリスク(MBR)復号化は多言語大言語モデル(MLLM)の翻訳性能を大幅に向上させる。
しかし、mbr復号化は計算量的に高価であり、本稿では、最近開発された強化学習(rl)手法であるdirect preference optimization(dpo)を用いて、mbrから得られる利益を推論の余分な計算なしで得ることができることを示す。
本モデルでは, 優先最適化のない基本MLLMと比較して, 複数のNMTテストセットの性能が大幅に向上した。
本手法は,MLLMの翻訳性能を比較的小さいモノリンガル微調整セットを用いて向上させる。
関連論文リスト
- Better Instruction-Following Through Minimum Bayes Risk [48.879360919760074]
人間レベルの評価が可能な汎用LLM審査員は、命令追従LLMを評価するスケーラブルで正確な方法を提供する。
LLM判事を監督に活用する有望な方法の1つは、最小ベイズリスク(MBR)デコーディングである。
MBRデコードでは、基準ベースの評価器を使用して、候補出力のセットの中から高品質な出力を選択する。
論文 参考訳(メタデータ) (2024-10-03T18:48:38Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Chasing COMET: Leveraging Minimum Bayes Risk Decoding for Self-Improving Machine Translation [0.0]
本稿では,機械翻訳における自己改善のための最小ベイズリスク(MBR)デコードについて検討する。
MBRで復号された前方翻訳のモデルを微調整することで自己改善プロセスを実現する。
その結果,全言語対の翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-05-20T10:25:03Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource
Languages with Integrated LLM Playgrounds [2.648836772989769]
adaptMLLMは、機械翻訳のための細調整多言語言語モデル(MLLM)のためのオープンソースツールである。
モデル評価のためのさまざまなメトリクスと、アプリケーション内で直接変換サービスとしてモデルをデプロイする機能を提供する。
AdaptMLLMシステムはLoResMT 2021の共有タスクのベースラインと比較して大幅に改善された。
論文 参考訳(メタデータ) (2024-03-04T14:49:18Z) - POMP: Probability-driven Meta-graph Prompter for LLMs in Low-resource
Unsupervised Neural Machine Translation [32.76853731410492]
低リソース言語(LRL)は、限られた並列データによる教師ありニューラルマシン翻訳の課題に直面している。
本稿では,大言語モデルのLRL翻訳能力を高めるために,確率駆動型メタグラフプロンプタ(POMP)を提案する。
本実験は3つのLRLの翻訳品質を著しく改善した。
論文 参考訳(メタデータ) (2024-01-11T00:03:36Z) - It's MBR All the Way Down: Modern Generation Techniques Through the Lens
of Minimum Bayes Risk [57.641436861482696]
最小ベイズリスク(MBR)復号法(英: Minimum Bayes Risk, MBR)は、最も高い確率で出力するだけでなく、複数の候補の間で最も低いリスク(予測誤差)を持つ出力に基づいて、機械学習システムの出力を選択する方法である。
論文 参考訳(メタデータ) (2023-10-02T17:47:10Z) - Condensing Multilingual Knowledge with Lightweight Language-Specific
Modules [52.973832863842546]
本稿では,Language-Specific Matrix Synthesis (LMS)法を紹介する。
このアプローチは、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。
複数のLSモジュールからの多言語知識を、Fuse Distillation (FD) 技術を用いて単一の共有モジュールに格納する。
論文 参考訳(メタデータ) (2023-05-23T12:21:38Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。