論文の概要: Better Instruction-Following Through Minimum Bayes Risk
- arxiv url: http://arxiv.org/abs/2410.02902v1
- Date: Mon, 28 Oct 2024 17:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 05:05:01.684595
- Title: Better Instruction-Following Through Minimum Bayes Risk
- Title(参考訳): ベイズリスクの最小化によるインストラクションフォローの改善
- Authors: Ian Wu, Patrick Fernandes, Amanda Bertsch, Seungone Kim, Sina Pakazad, Graham Neubig,
- Abstract要約: 人間レベルの評価が可能な汎用LLM審査員は、命令追従LLMを評価するスケーラブルで正確な方法を提供する。
LLM判事を監督に活用する有望な方法の1つは、最小ベイズリスク(MBR)デコーディングである。
MBRデコードでは、基準ベースの評価器を使用して、候補出力のセットの中から高品質な出力を選択する。
- 参考スコア(独自算出の注目度): 48.879360919760074
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: General-purpose LLM judges capable of human-level evaluation provide not only a scalable and accurate way of evaluating instruction-following LLMs but also new avenues for supervising and improving their performance. One promising way of leveraging LLM judges for supervision is through Minimum Bayes Risk (MBR) decoding, which uses a reference-based evaluator to select a high-quality output from amongst a set of candidate outputs. In the first part of this work, we explore using MBR decoding as a method for improving the test-time performance of instruction-following LLMs. We find that MBR decoding with reference-based LLM judges substantially improves over greedy decoding, best-of-N decoding with reference-free judges and MBR decoding with lexical and embedding-based metrics on AlpacaEval and MT-Bench. These gains are consistent across LLMs with up to 70B parameters, demonstrating that smaller LLM judges can be used to supervise much larger LLMs. Then, seeking to retain the improvements from MBR decoding while mitigating additional test-time costs, we explore iterative self-training on MBR-decoded outputs. We find that self-training using Direct Preference Optimisation leads to significant performance gains, such that the self-trained models with greedy decoding generally match and sometimes exceed the performance of their base models with MBR decoding.
- Abstract(参考訳): 人体レベルの評価が可能な汎用LSM判断器は、命令追従LSMを評価するスケーラブルで正確な方法だけでなく、その性能を監視・改善するための新たな手段も提供する。
LLMの審査員を監督に活用する有望な方法の1つは、最小ベイズリスク(MBR)復号(Minimum Bayes Risk)である。
本研究の前半では,命令追従 LLM の試験時間性能を向上させる手法として MBR 復号法について検討する。
基準に基づく LLM 判定器による MBR 復号法は, グレディ復号法よりも大幅に向上し, 基準のない判定器によるベスト・オブ・N 復号法や, AlpacaEval および MT-Bench 上での語彙的, 埋め込み的メトリクスによる MBR 復号法が大幅に向上することがわかった。
これらの利得は、最大70Bパラメータを持つLLM間で一貫性があり、より小さなLLM判事がより大きなLLMを監督するために使用できることを示す。
そこで本研究では,MBR復号化出力の反復的自己学習について検討する。
直接選好最適化を用いた自己学習は、強欲な復号化を伴う自己学習モデルと一般的に一致し、MBR復号化による基本モデルの性能を上回ることがあるなど、大幅な性能向上をもたらすことが判明した。
関連論文リスト
- Self-Explained Keywords Empower Large Language Models for Code Generation [5.236633572296712]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
Sek(textbfSelf-textbfExplained textbfKeywords)は、LLM自体による問題記述における重要な用語を抽出し、説明する。
論文 参考訳(メタデータ) (2024-10-21T12:52:03Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences [2.3749120526936465]
LLM-as-a-Judge法を用いて、LLMと符号化優先のアライメントを評価する。
CodeUltraFeedbackは1万のコード命令で構成され、それぞれに14 LLMの多様なプールから生成される4つの応答が注釈付けされている。
次に、教師付き微調整(SFT)とAIフィードバックからの強化学習(RLAIF)を用いたCodeLlama-7B-Instructの微調整のためのフィードバックデータとしてのCodeUltraFeedbackの利用について検討する。
論文 参考訳(メタデータ) (2024-03-14T01:51:35Z) - Direct Preference Optimization for Neural Machine Translation with Minimum Bayes Risk Decoding [15.309135455863753]
本稿では,最近開発された強化学習手法である直接選好最適化(DPO)を用いて,追加計算なしで多言語大言語モデルを微調整する方法について述べる。
本手法では, 単言語による微調整のみを用い, DPOのないMLLMと比較して, 複数のNMTテストセットの性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-11-14T18:43:51Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。