論文の概要: On Diversified Preferences of Large Language Model Alignment
- arxiv url: http://arxiv.org/abs/2312.07401v3
- Date: Sun, 18 Feb 2024 08:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:08:32.359262
- Title: On Diversified Preferences of Large Language Model Alignment
- Title(参考訳): 大規模言語モデルアライメントの多様な選好について
- Authors: Dun Zeng, Yong Dai, Pengyu Cheng, Tianhao Hu, Wanshun Chen, Nan Du,
Zenglin Xu
- Abstract要約: 本研究では,多彩な嗜好が報酬モデルに及ぼす影響について検討する。
その結果,様々な選好データが報酬モデルのキャリブレーション性能に悪影響を及ぼすことがわかった。
本稿では,RMの校正性能を高めるための多目的リワード学習手法を提案する。
- 参考スコア(独自算出の注目度): 39.217429347482145
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Aligning large language models (LLMs) with human preferences has been
recognized as the key to improving LLMs' interaction quality. However, in this
pluralistic world, human preferences can be diversified due to annotators'
different tastes, which hinders the effectiveness of LLM alignment methods.
This paper presents the first quantitative analysis of commonly used human
feedback datasets to investigate the impact of diversified preferences on
reward modeling. Our analysis reveals a correlation between the calibration
performance of reward models (RMs) and the alignment performance of LLMs. We
find that diversified preference data negatively affect the calibration
performance of RMs on human-shared preferences, such as
\textit{Harmless\&Helpful}, thereby impairing the alignment performance of
LLMs. To address the ineffectiveness, we propose a novel Multi-Objective Reward
learning method (MORE) to enhance the calibration performance of RMs on shared
preferences. We validate our findings by experiments on three models and five
human preference datasets. Our method significantly improves the prediction
calibration of RMs, leading to better alignment of the Alpaca-7B model with
\textit{Harmless\&Helpful} preferences. Furthermore, the connection between
reward calibration and preference alignment performance suggests that
calibration error can be adopted as a key metric for evaluating RMs. The
open-source code and data are available at
\url{https://github.com/dunzeng/MORE}.
- Abstract(参考訳): 大規模言語モデル(LLM)を人間の好みに合わせることが,LLMのインタラクション品質向上の鍵であると認識されている。
しかし、この多元的世界では、アノテータの異なる嗜好によって人間の嗜好が多様化し、LCMアライメント手法の有効性を阻害する。
本稿では,ヒトのフィードバックデータセットを定量的に分析し,様々な好みが報酬モデルに与える影響について検討する。
本研究では,報酬モデル(RM)の校正性能とLLMのアライメント性能の相関関係を明らかにする。
その結果,様々な選好データが,例えば \textit{Harmless\&Helpful} などの人為的選好に対するRMの校正性能に悪影響を及ぼし,LCM のアライメント性能を損なうことがわかった。
そこで本研究では, RMの校正性能を向上するMORE(Multi-Objective Reward Learning Method)を提案する。
3つのモデルと5つの人間好みデータセットで実験を行い,結果の検証を行った。
提案手法はRMの予測キャリブレーションを大幅に改善し,Alpaca-7B モデルと \textit{Harmless\&Helpful} モデルのアライメントを向上させる。
さらに,報奨校正性能と選好アライメント性能の関連性から,キャリブレーション誤差がRM評価の指標となることが示唆された。
オープンソースのコードとデータは、 \url{https://github.com/dunzeng/more}で入手できる。
関連論文リスト
- Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Compositional preference models for aligning LMs [11.458448099144762]
構成的選好モデル(CPM)は、一つのグローバルな選好評価をいくつかの解釈可能な特徴に分解するフレームワークである。
CPMは、選好データのどの特性を使って選好モデルを訓練するかを制御し、人間の選好判断を過小評価していると考えられる特徴に基づいて構築することができる。
論文 参考訳(メタデータ) (2023-10-17T01:31:59Z) - UltraFeedback: Boosting Language Models with High-quality Feedback [77.55342076933047]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要な技術となっている。
現在の選好データセットは、プロプライエタリなものか、サイズが限定されているか、あるいはプロプライエタリなものかのいずれかで、オープンソースモデルでのRLHFの採用が制限されている。
本稿では,これらの制限を克服し,RLHF開発を促進するために,大規模で高品質で多様な嗜好データセットを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。