論文の概要: BLEUBERI: BLEU is a surprisingly effective reward for instruction following
- arxiv url: http://arxiv.org/abs/2505.11080v2
- Date: Sat, 07 Jun 2025 21:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.076961
- Title: BLEUBERI: BLEU is a surprisingly effective reward for instruction following
- Title(参考訳): BLEUBERI:BLEUは命令に従うのに驚くほど効果的な報酬
- Authors: Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer,
- Abstract要約: 基本的な文字列マッチングの指標であるBLEUは、一般的な命令追従データセット上での人間の嗜好と一致して、強い報酬モデルと驚くほど一致していることを示す。
BLEUBERI学習モデルは、報酬モデル誘導RLを用いて訓練されたモデルと競合することを示す。
- 参考スコア(独自算出の注目度): 30.04785229682666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models are central to aligning LLMs with human preferences, but they are costly to train, requiring large-scale human-labeled preference data and powerful pretrained LLM backbones. Meanwhile, the increasing availability of high-quality synthetic instruction-following datasets raises the question: can simpler, reference-based metrics serve as viable alternatives to reward models during RL-based alignment? In this paper, we show first that BLEU, a basic string-matching metric, surprisingly matches strong reward models in agreement with human preferences on general instruction-following datasets. Based on this insight, we develop BLEUBERI, a method that first identifies challenging instructions and then applies Group Relative Policy Optimization (GRPO) using BLEU directly as the reward function. We demonstrate that BLEUBERI-trained models are competitive with models trained via reward model-guided RL across four challenging instruction-following benchmarks and three different base language models. A human evaluation further supports that the quality of BLEUBERI model outputs is on par with those from reward model-aligned models. Moreover, BLEUBERI models generate outputs that are more factually grounded than competing methods. Overall, we show that given access to high-quality reference outputs (easily obtained via existing instruction-following datasets or synthetic data generation), string matching-based metrics are cheap yet effective proxies for reward models during alignment. We release our code and data at https://github.com/lilakk/BLEUBERI.
- Abstract(参考訳): リワードモデルは、LLMを人間の好みに合わせることの中心であるが、訓練にはコストがかかり、大規模な人ラベルの好みデータと強力な事前訓練されたLLMバックボーンが必要である。
一方、高品質な合成命令追跡データセットが利用可能になれば、よりシンプルで参照ベースのメトリクスは、RLベースのアライメント中に報酬モデルに代わる実行可能な選択肢になるのだろうか?
本稿では,まず,文字列マッチングの基本的な指標であるBLEUが,一般的な命令追従データセットに対する人間の嗜好と一致して,強い報酬モデルと驚くほど一致していることを示す。
この知見に基づいて、まず難解な指示を識別し、次にBLEUを直接報酬関数としてグループ相対ポリシー最適化(GRPO)を適用する方法であるBLEUBERIを開発する。
BLEUBERI学習モデルは、4つの挑戦的な命令追従ベンチマークと3つの異なるベース言語モデルで報酬モデル誘導RLを用いて訓練されたモデルと競合することを示した。
人間による評価は、BLEUBERIモデル出力の品質が報酬モデル整列モデルと同等であることをさらに支持する。
さらに、BLEUBERIモデルは競合する手法よりも現実的に基礎づけられた出力を生成する。
全体として、高品質な参照出力(既存の命令追従データセットや合成データ生成を通じて容易に得られる)へのアクセスが与えられた場合、文字列マッチングベースのメトリクスは、アライメント中の報酬モデルに対して、安価で効果的なプロキシであることを示す。
コードとデータはhttps://github.com/lilakk/BLEUBERI.comで公開しています。
関連論文リスト
- Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。