Fugu-MT 論文翻訳(概要): MBR and QE Finetuning: Training-time Distillation of the Best and Most Expensive Decoding Methods

論文の概要: MBR and QE Finetuning: Training-time Distillation of the Best and Most Expensive Decoding Methods

arxiv url: http://arxiv.org/abs/2309.10966v5
Date: Wed, 11 Oct 2023 23:59:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 14:52:54.602607
Title: MBR and QE Finetuning: Training-time Distillation of the Best and Most Expensive Decoding Methods
Title（参考訳）: MBRとQEファインタニング:最良かつ最も高価な復号法の訓練時間蒸留
Authors: Mara Finkelstein, Subhajit Naskar, Mehdi Mirzazadeh, Apurva Shah, and Markus Freitag
Abstract要約: モデルパープレキシティとvs品質のミスマッチを軽減するために、ファインタニングとQEファインタニングを提案する。自己学習においても,これらのファインタニング手法はベースモデルよりも有意に優れていることを示す。これらの結果は、モノリンガルデータを活用する新たな方法が、人間の計算データと同等かそれ以上のモデル品質の向上を実現することを示唆している。
参考スコア（独自算出の注目度）: 13.56549575939123
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research in decoding methods for Natural Language Generation (NLG) tasks has shown that MAP decoding is not optimal, because model probabilities do not always align with human preferences. Stronger decoding methods, including Quality Estimation (QE) reranking and Minimum Bayes' Risk (MBR) decoding, have since been proposed to mitigate the model-perplexity-vs-quality mismatch. While these decoding methods achieve state-of-the-art performance, they are prohibitively expensive to compute. In this work, we propose MBR finetuning and QE finetuning which distill the quality gains from these decoding methods at training time, while using an efficient decoding algorithm at inference time. Using the canonical NLG task of Neural Machine Translation (NMT), we show that even with self-training, these finetuning methods significantly outperform the base model. Moreover, when using an external LLM as a teacher model, these finetuning methods outperform finetuning on human-generated references. These findings suggest new ways to leverage monolingual data to achieve improvements in model quality that are on par with, or even exceed, improvements from human-curated data, while maintaining maximum efficiency during decoding.
Abstract（参考訳）: 自然言語生成(nlg)タスクのデコード手法に関する最近の研究は、モデル確率が必ずしも人間の好みと一致するとは限らないため、マップデコードが最適ではないことを示した。 QE(Quality Estimation)やMBR(Minimum Bayes' Risk)といったより強力な復号法が提案され、モデルパープレキシティとvs品質のミスマッチが軽減された。これらの復号法は最先端の性能を実現するが、計算コストは極めて高い。本研究では,これらの復号法から得られた品質向上を,推定時に効率的な復号アルゴリズムを用いて蒸留するmbr微調整とqe微調整を提案する。ニューラルネットワーク翻訳(nmt)の標準的nlgタスクを用いて,自己学習においても,これらの微調整手法がベースモデルを大幅に上回っていることを示す。さらに、外部LLMを教師モデルとして使用する場合、これらの微調整法は人為的な参照に基づいて微調整を行う。これらの知見は, 復号時の最大効率を維持しつつ, 人間が収集したデータと同等かそれ以上か, モデル品質の改善を達成するために, 単言語データを活用する新しい方法を提案する。

関連論文リスト

Should We Still Pretrain Encoders with Masked Language Modeling? [27.19054714197245]
最近の証拠は、コーサル言語モデリング(CLM)で事前訓練されたデコーダモデルをエンコーダとして効果的に再利用できることを示唆している。 2億1000万から10億のパラメータの合計38モデルをトレーニングし、15,000以上の微調整と評価を実行します。高いレベルのCLMを用いたトレーニングでは,テキスト表現タスク間で性能が向上する一方で,CLM学習モデルの方がデータ効率が良く,微調整安定性が向上していることがわかった。
論文参考訳（メタデータ） (2025-07-01T17:45:48Z)
Iterative Self-Training for Code Generation via Reinforced Re-Ranking [5.77678027975395]
PPO(Proximal Policy Optimization)を用いた自己学習型リランカモデルのための新しい反復型自己学習手法を提案する。従来のPPOアプローチとは異なり、我々のアプローチは堅牢な報酬/報酬モデルの開発に重点を置いている。提案手法は,出力を再評価し,ハイスコアな負例を特定し,トレーニングループに組み込むことで,トレーニングデータセットを洗練する。
論文参考訳（メタデータ） (2025-04-13T16:34:17Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。 RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。 RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文参考訳（メタデータ） (2025-01-31T17:19:57Z)
DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.24431208419858]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。 DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文参考訳（メタデータ） (2024-11-20T02:03:16Z)
Adversarial Contrastive Decoding: Boosting Safety Alignment of Large Language Models via Opposite Prompt Optimization [34.29833630422768]
Adversarial Contrastive Decoding (ACD)は、プロンプトベースのコントラストデコーディングのための2つの逆のシステムプロンプトを生成する最適化ベースのフレームワークである。 ACDは、元の生成能力を犠牲にすることなく、従来のトレーニング不要復号法よりもはるかに優れた安全性を実現する。
論文参考訳（メタデータ） (2024-06-24T15:51:30Z)
Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文参考訳（メタデータ） (2023-10-10T15:33:51Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Quality-Aware Decoding for Neural Machine Translation [64.24934199944875]
ニューラルネットワーク翻訳(NMT)のための品質認識復号法を提案する。参照フリーおよび参照ベースMT評価における最近のブレークスルーを,様々な推論手法を用いて活用する。品質認識復号化は、最先端の自動測定値と人的評価値の両方で、MAPベースの復号化を一貫して上回ります。
論文参考訳（メタデータ） (2022-05-02T15:26:28Z)
Integrate Lattice-Free MMI into End-to-End Speech Recognition [87.01137882072322]
音声認識(ASR)研究において、識別基準はDNN-HMMシステムにおいて優れた性能を達成している。このモチベーションにより、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。これまでの研究は、最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入してきた。本研究では,他の広く使われている識別基準であるLF-MMIをE2Eに統合する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-29T14:32:46Z)
Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。 MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-03-09T17:26:53Z)
A new Sparse Auto-encoder based Framework using Grey Wolf Optimizer for Data Classification Problem [0.0]
列車のスパースオートエンコーダにグレーオオカミ最適化(GWO)を適用する。モデルは、いくつかの人気のあるGene式データベースを使用することで検証される。その結果、GWOを用いた学習モデルの性能は、一般的なメタヒューリスティックアルゴリズムで訓練された従来のモデルとモデルの両方で優れていた。
論文参考訳（メタデータ） (2022-01-29T04:28:30Z)
Efficient Decoding of Surface Code Syndromes for Error Correction in Quantum Computing [0.09236074230806578]
本稿では,2レベル(低レベル,高レベル)のMLベースの復号法を提案し,第1レベルが物理量子ビット上の誤りを訂正し,第2レベルが既存の論理的誤りを訂正する。その結果,提案手法は擬似閾値としきい値のそれぞれ$sim10倍,$sim2倍の値が得られることがわかった。より高度な訓練/テスト時間を持つMLモデルの使用は、デコーダの性能に大きな改善をもたらすものではないことを示す。
論文参考訳（メタデータ） (2021-10-21T04:54:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。