論文の概要: Direct Preference Optimization for Neural Machine Translation with Minimum Bayes Risk Decoding
- arxiv url: http://arxiv.org/abs/2311.08380v2
- Date: Fri, 12 Apr 2024 14:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 19:35:34.043590
- Title: Direct Preference Optimization for Neural Machine Translation with Minimum Bayes Risk Decoding
- Title(参考訳): 最小ベイズリスクデコーディングによるニューラルマシン翻訳の直接選好最適化
- Authors: Guangyu Yang, Jinghong Chen, Weizhe Lin, Bill Byrne,
- Abstract要約: 本稿では,最近開発された強化学習手法である直接選好最適化(DPO)を用いて,追加計算なしで多言語大言語モデルを微調整する方法について述べる。
本手法では, 単言語による微調整のみを用い, DPOのないMLLMと比較して, 複数のNMTテストセットの性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 15.309135455863753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minimum Bayes Risk (MBR) decoding can significantly improve translation performance of Multilingual Large Language Models (MLLMs). However, MBR decoding is computationally expensive. We show how the recently developed Reinforcement Learning technique, Direct Preference Optimization (DPO), can fine-tune MLLMs to get the gains of MBR without any additional computation in inference. Our method uses only a small monolingual fine-tuning set and yields significantly improved performance on multiple NMT test sets compared to MLLMs without DPO.
- Abstract(参考訳): 最小ベイズリスク(MBR)復号化は多言語大言語モデル(MLLM)の翻訳性能を大幅に向上させる。
しかし、MBR復号法は計算コストが高い。
近年開発されたReinforcement Learning Technique, Direct Preference Optimization (DPO) は,MLLMを微調整することで,推論に余分な計算を加えることなくMBRのゲインを得る方法を示す。
本手法では, 単言語による微調整のみを用い, DPOのないMLLMと比較して, 複数のNMTテストセットの性能を著しく向上させる。
関連論文リスト
- Better Instruction-Following Through Minimum Bayes Risk [48.879360919760074]
人間レベルの評価が可能な汎用LLM審査員は、命令追従LLMを評価するスケーラブルで正確な方法を提供する。
LLM判事を監督に活用する有望な方法の1つは、最小ベイズリスク(MBR)デコーディングである。
MBRデコードでは、基準ベースの評価器を使用して、候補出力のセットの中から高品質な出力を選択する。
論文 参考訳(メタデータ) (2024-10-03T18:48:38Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Chasing COMET: Leveraging Minimum Bayes Risk Decoding for Self-Improving Machine Translation [0.0]
本稿では,機械翻訳における自己改善のための最小ベイズリスク(MBR)デコードについて検討する。
MBRで復号された前方翻訳のモデルを微調整することで自己改善プロセスを実現する。
その結果,全言語対の翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-05-20T10:25:03Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource
Languages with Integrated LLM Playgrounds [2.648836772989769]
adaptMLLMは、機械翻訳のための細調整多言語言語モデル(MLLM)のためのオープンソースツールである。
モデル評価のためのさまざまなメトリクスと、アプリケーション内で直接変換サービスとしてモデルをデプロイする機能を提供する。
AdaptMLLMシステムはLoResMT 2021の共有タスクのベースラインと比較して大幅に改善された。
論文 参考訳(メタデータ) (2024-03-04T14:49:18Z) - POMP: Probability-driven Meta-graph Prompter for LLMs in Low-resource
Unsupervised Neural Machine Translation [32.76853731410492]
低リソース言語(LRL)は、限られた並列データによる教師ありニューラルマシン翻訳の課題に直面している。
本稿では,大言語モデルのLRL翻訳能力を高めるために,確率駆動型メタグラフプロンプタ(POMP)を提案する。
本実験は3つのLRLの翻訳品質を著しく改善した。
論文 参考訳(メタデータ) (2024-01-11T00:03:36Z) - It's MBR All the Way Down: Modern Generation Techniques Through the Lens
of Minimum Bayes Risk [57.641436861482696]
最小ベイズリスク(MBR)復号法(英: Minimum Bayes Risk, MBR)は、最も高い確率で出力するだけでなく、複数の候補の間で最も低いリスク(予測誤差)を持つ出力に基づいて、機械学習システムの出力を選択する方法である。
論文 参考訳(メタデータ) (2023-10-02T17:47:10Z) - Condensing Multilingual Knowledge with Lightweight Language-Specific
Modules [52.973832863842546]
本稿では,Language-Specific Matrix Synthesis (LMS)法を紹介する。
このアプローチは、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。
複数のLSモジュールからの多言語知識を、Fuse Distillation (FD) 技術を用いて単一の共有モジュールに格納する。
論文 参考訳(メタデータ) (2023-05-23T12:21:38Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。