論文の概要: CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling
- arxiv url: http://arxiv.org/abs/2410.21545v2
- Date: Mon, 17 Feb 2025 21:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:03:28.336072
- Title: CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling
- Title(参考訳): CARMO:コンテキスト対応リワードモデリングのための動的基準生成
- Authors: Taneesh Gupta, Shivam Shandilya, Xuchao Zhang, Rahul Madhavan, Supriyo Ghosh, Chetan Bansal, Huaxiu Yao, Saravan Rajmohan,
- Abstract要約: 大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
- 参考スコア(独自算出の注目度): 27.86204841898399
- License:
- Abstract: Reward modeling in large language models is susceptible to reward hacking, causing models to latch onto superficial features such as the tendency to generate lists or unnecessarily long responses. In reinforcement learning from human feedback (RLHF) and more generally during post-training flawed reward signals often lead to outputs that optimize for these spurious correlates instead of genuine quality or correctness. We propose Context-Aware Reward Modeling (CARMO), a novel approach that first generates dynamic, context-relevant criteria to ground the reward model before producing reward scores. Unlike prior methods that rely on static rubrics, CARMO leverages large language models (LLMs) to adaptively create evaluation criteria such as logical consistency, clarity, and depth tailored to the user query. Our theoretical analysis shows that such criteria generation can mitigate reward hacking. We further demonstrate that CARMO can be distilled into smaller models, reducing the computational cost of alignment. We establish a new state-of-the-art performance in zero-shot settings for generative models, achieving a 2.1\% improvement on Reward Bench. Furthermore, alignment performed on the CARMO-curated preference dataset achieves 22.5\% and 21.1\% LC-WR and WR, respectively, on Mistral-Base (7B).
- Abstract(参考訳): 大規模な言語モデルにおけるリワードモデリングは、ハッキングに報いる可能性があるため、リストを生成する傾向や不要に長い応答などの表面的な特徴にモデルをラッチさせる。
人間のフィードバックからの強化学習(RLHF)や、より一般的には、トレーニング後の欠陥のある報酬信号が、真の品質や正確さではなく、これらの刺激的な相関を最適化する出力につながることが多い。
本稿では,まず,報酬モデルに基づいて報酬スコアを生成する新しい手法であるCARMO(Context-Aware Reward Modeling)を提案する。
静的ルーリックに依存する従来の方法とは異なり、CARMOは大規模言語モデル(LLM)を活用して、論理的一貫性、明瞭さ、ユーザクエリに合わせた深さなどの評価基準を適応的に作成する。
我々の理論的分析は、そのような基準の生成が報酬ハッキングを軽減できることを示している。
さらに、CARMOをより小さなモデルに蒸留できることを示し、アライメントの計算コストを削減した。
生成モデルに対するゼロショット設定における新しい最先端性能を確立し,Reward Benchの2.1\%の改善を実現した。
さらに、CARMO処理された選好データセット上で実行されるアライメントは、Mistral-Base(7B)上でそれぞれ22.5\%と21.1\%のLC-WRとWRを達成する。
関連論文リスト
- RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style [37.97757796124621]
RM-Benchは、微妙な内容の違いに対する感度とスタイルバイアスに対する耐性に基づいて報酬モデルを評価するために設計された新しいベンチマークである。
RM-Bench上で40近い報酬モデルを評価し,最先端モデルでさえ平均性能は46.6%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-21T16:48:26Z) - Elephant in the Room: Unveiling the Impact of Reward Model Quality in Alignment [50.21842377409232]
重要な役割の報酬モデルが整列するにもかかわらず、以前の作品は一貫してパフォーマンスを見落としている。
本研究は、まず、広く使われている嗜好データセットHH-RLHFの品質を調査し、クリーンバージョンCHH-RLHFをキュレートする。
本稿では,CHH-RLHFに基づいて,従来のアライメント作業で使用する幅広い報酬モデルの精度をベンチマークし,最適化と評価の両方に使用するという信頼性の欠如を明らかにした。
論文 参考訳(メタデータ) (2024-09-26T04:28:35Z) - Critique-out-Loud Reward Models [20.631830494414096]
本稿では,Crytique-out-Loud(CLoud)報酬モデルを紹介する。
CLoud報酬モデルは、まずアシスタントの応答に対する自然言語の批判を生成することで機能する。
我々は,Llama-3-8Bおよび70BベースモデルのCLoud報酬モデルの成功例を示した。
論文 参考訳(メタデータ) (2024-08-21T17:24:15Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。