論文の概要: Taming Overconfidence in LLMs: Reward Calibration in RLHF
- arxiv url: http://arxiv.org/abs/2410.09724v1
- Date: Sun, 13 Oct 2024 04:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 08:36:49.220436
- Title: Taming Overconfidence in LLMs: Reward Calibration in RLHF
- Title(参考訳): LLMにおける過剰信頼の回避--RLHFにおけるリワード校正
- Authors: Jixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang,
- Abstract要約: 我々は、RLHFが、モデルが自身の反応において言語化された過信を表現することを示している。
PPO-M: PPO with Calibrated Reward Modeling と PPO-C: PPO with Calibrated Reward calculation の2種類を提案する。
実験の結果,両手法はキャリブレーション誤差を低減し,標準PPOに匹敵する性能を維持することができることがわかった。
- 参考スコア(独自算出の注目度): 22.987839194757225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model calibration refers to the alignment between the confidence of the model and the actual performance of its responses. While previous studies point out the overconfidence phenomenon in Large Language Models (LLMs) and show that LLMs trained with Reinforcement Learning from Human Feedback (RLHF) are overconfident with a more sharpened output probability, in this study, we reveal that RLHF tends to lead models to express verbalized overconfidence in their own responses. We investigate the underlying cause of this overconfidence and demonstrate that reward models used for Proximal Policy Optimization (PPO) exhibit inherent biases towards high-confidence scores regardless of the actual quality of responses. Building upon this insight, we propose two PPO variants: PPO-M: PPO with Calibrated Reward Modeling and PPO-C: PPO with Calibrated Reward Calculation. PPO-M integrates explicit confidence scores in reward model training, which calibrates reward models to better capture the alignment between response quality and verbalized confidence. PPO-C adjusts the reward score during PPO based on the difference between the current reward and the moving average of past rewards. Both PPO-M and PPO-C can be seamlessly integrated into the current PPO pipeline and do not require additional golden labels. We evaluate our methods on both Llama3-8B and Mistral-7B across six diverse datasets including multiple-choice and open-ended generation. Experiment results demonstrate that both of our methods can reduce calibration error and maintain performance comparable to standard PPO. We further show that they do not compromise model capabilities in open-ended conversation settings.
- Abstract(参考訳): 言語モデルのキャリブレーション(Language model calibration)とは、モデルの信頼性と応答の実際のパフォーマンスの整合性を指す。
従来の研究では、LLHFは言語モデル(LLM)の過信現象を指摘し、人間のフィードバックからの強化学習(RLHF)で訓練されたLLMが、よりシャープな出力確率で過信であることを示したが、本研究では、RLHFは、モデルが自身の反応において言語化された過信を表現する傾向にあることを示した。
この過信の根本原因を考察し,PPO(Pximal Policy Optimization)に使用される報酬モデルが,応答の質に関わらず,信頼度の高いスコアに対して固有のバイアスを示すことを示す。
この知見に基づいて, PPO-M: PPO with Calibrated Reward Modeling と PPO-C: PPO with Calibrated Reward calculation の2つの変種を提案する。
PPO-Mは報酬モデルトレーニングに明確な信頼スコアを統合し、報酬モデルを校正し、応答品質と言語化された信頼の整合をよりよく捉える。
PPO-Cは、現在の報酬と過去の報酬の移動平均との差に基づいて、PPO中の報酬スコアを調整する。
PPO-MとPPO-Cはどちらも、現在のPPOパイプラインにシームレスに統合することができ、追加のゴールデンラベルを必要としない。
我々は,Llama3-8BとMistral-7Bの2つの手法を,複数選択とオープンエンド生成を含む6つの多様なデータセットで評価した。
実験の結果,両手法はキャリブレーション誤差を低減し,標準PPOに匹敵する性能を維持することができることがわかった。
さらに、オープンエンドの会話設定において、モデル能力を損なわないことを示す。
関連論文リスト
- Process Reward Model with Q-Value Rankings [18.907163177605607]
プロセス・リワード・モデリング(PRM)は複雑な推論と意思決定に不可欠である。
本稿では,マルコフ決定プロセスの文脈でPRMを再定義する新しいフレームワークであるProcess Q-value Model(PQM)を紹介する。
PQMは、新しい比較損失関数に基づいてQ値ランキングを最適化し、シーケンシャルな決定の中で複雑なダイナミクスをキャプチャするモデルの能力を向上する。
論文 参考訳(メタデータ) (2024-10-15T05:10:34Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Direct Alignment of Language Models via Quality-Aware Self-Refinement [31.845241241178982]
そこで本研究では,本研究における本質的知識の活用について検討し,相対的特性の獲得と損失関数の高度化に寄与する。
構築された精細化関数は、軽度の仮定の下で損失関数を自己再定義するのに役立つことを示す。
実験は、DPOやIPOよりも細調整されたモデルの性能を向上させることができることを示している。
論文 参考訳(メタデータ) (2024-05-31T17:31:18Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study [16.99550556866219]
Reinforcement Learning from Human Feedback (RLHF) は現在、大きな言語モデル(LLM)を人間の好みに合わせるために最も広く使われている手法である。
学術ベンチマークでは、最先端の結果は直接選好最適化(DPO)のような報酬のない手法によって達成されることが多い。
PPOは、あらゆるケースにおいて他のアライメント手法を超越し、挑戦的なコード競争において最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2024-04-16T16:51:53Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。