論文の概要: reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs
- arxiv url: http://arxiv.org/abs/2503.11751v1
- Date: Fri, 14 Mar 2025 17:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:16.872632
- Title: reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs
- Title(参考訳): reWordBench: 変換入力によるリワードモデルのロバストさのベンチマークと改善
- Authors: Zhaofeng Wu, Michihiro Yasunaga, Andrew Cohen, Yoon Kim, Asli Celikyilmaz, Marjan Ghazvininejad,
- Abstract要約: 現状の報奨モデルでは, 入力変換が小さい場合でも, 大幅な性能劣化に悩まされていることを示す。
同様のスコアをパラフレーズに割り当てるように明示的にトレーニングすることを提案するが、この手法は他の異なる種類の変換に対する堅牢性も向上する。
- 参考スコア(独自算出の注目度): 64.29893431743608
- License:
- Abstract: Reward models have become a staple in modern NLP, serving as not only a scalable text evaluator, but also an indispensable component in many alignment recipes and inference-time algorithms. However, while recent reward models increase performance on standard benchmarks, this may partly be due to overfitting effects, which would confound an understanding of their true capability. In this work, we scrutinize the robustness of reward models and the extent of such overfitting. We build **reWordBench**, which systematically transforms reward model inputs in meaning- or ranking-preserving ways. We show that state-of-the-art reward models suffer from substantial performance degradation even with minor input transformations, sometimes dropping to significantly below-random accuracy, suggesting brittleness. To improve reward model robustness, we propose to explicitly train them to assign similar scores to paraphrases, and find that this approach also improves robustness to other distinct kinds of transformations. For example, our robust reward model reduces such degradation by roughly half for the Chat Hard subset in RewardBench. Furthermore, when used in alignment, our robust reward models demonstrate better utility and lead to higher-quality outputs, winning in up to 59% of instances against a standardly trained RM.
- Abstract(参考訳): リワードモデルは、スケーラブルなテキスト評価器としてだけでなく、多くのアライメントレシピや推論時間アルゴリズムにおいて欠かせないコンポーネントとして機能する。
しかし、最近の報酬モデルでは標準ベンチマークのパフォーマンスが向上しているが、これは部分的にはオーバーフィッティング効果によるものかもしれない。
本研究では,報酬モデルの頑健さと過度に適合する程度を精査する。
我々は*reWordBench*を構築し、報酬モデル入力を意味やランキング保存の方法で体系的に変換します。
現状の報奨モデルでは、小さな入力変換であっても性能が著しく低下し、時々かなり低い精度に低下し、脆さが示唆される。
報酬モデルのロバスト性を改善するために,同種のスコアをパラフレーズに割り当てるように明示的にトレーニングすることを提案する。
例えば、我々の頑健な報酬モデルは、RewardBenchのChat Hard部分集合の約半分の劣化を減少させる。
さらに、アライメントで使用する場合、ロバストな報酬モデルにより、より良い実用性を示し、高品質な出力をもたらし、標準的にトレーニングされたRMに対して最大59%のインスタンスで勝利する。
関連論文リスト
- CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style [37.97757796124621]
RM-Benchは、微妙な内容の違いに対する感度とスタイルバイアスに対する耐性に基づいて報酬モデルを評価するために設計された新しいベンチマークである。
RM-Bench上で40近い報酬モデルを評価し,最先端モデルでさえ平均性能は46.6%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-21T16:48:26Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。
ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文 参考訳(メタデータ) (2024-06-03T05:46:53Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Model Reprogramming Outperforms Fine-tuning on Out-of-distribution Data in Text-Image Encoders [56.47577824219207]
本稿では,侵入的微調整技術に関連する隠れたコストを明らかにする。
ファインチューニングのための新しいモデル再プログラミング手法を導入し、それをリプログラマと呼ぶ。
我々の経験的証拠は、Re Programmerは侵入力が少なく、より優れた下流モデルが得られることを示している。
論文 参考訳(メタデータ) (2024-03-16T04:19:48Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Enhancing Certified Robustness via Smoothed Weighted Ensembling [7.217295098686032]
Smoothed Weighted ENsembling scheme を用いてランダム化スムーズな分類器の性能を向上させる。
SWEENが最適な証明された堅牢性を達成するのに有効であることを示す。
また,SWEENモデルの予測と認証コストを削減するための適応予測アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-05-19T11:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。