論文の概要: On Diverse Preferences for Large Language Model Alignment
- arxiv url: http://arxiv.org/abs/2312.07401v1
- Date: Tue, 12 Dec 2023 16:17:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:12:39.345749
- Title: On Diverse Preferences for Large Language Model Alignment
- Title(参考訳): 大規模言語モデルアライメントの多様な選好について
- Authors: Dun Zeng, Yong Dai, Pengyu Cheng, Tianhao Hu, Wanshun Chen, Nan Du,
Zenglin Xu
- Abstract要約: 本稿では,様々な嗜好にまたがる嗜好目標を適応的に調整することで,嗜好バイアスを最小限に抑えるMOREを提案する。
MOREはより優れた報酬精度と低いキャリブレーション誤差を実現し、多様な人間の嗜好データを活用する能力を強調している。
- 参考スコア(独自算出の注目度): 39.217429347482145
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The alignment of large language models (LLMs) with human values is crucial
for the development of artificial general intelligence (AGI). One promising
approach to achieve this alignment is reinforcement learning from human
feedback, which employs a reward model (RM) learned from human preference
datasets to guide LLMs in generating text that aligns with human preferences.
Through intensive experiments and analysis of reward distribution, this paper
finds that preference datasets are diverse from each other, even though they
are all proposed to align human preference. Hence, mixing diverse human
preference datasets to increase data size for enhancing reward modeling could
fail. To address the issue and capture the shared human values from diverse
preferences, a new training policy called MORE is introduced, which minimizes
preference bias by adaptively adjusting the preference objective across diverse
preferences. Experiments with the Pythia-1.4B model and five mixed preference
datasets show that MORE achieves superior reward accuracy and lower calibration
error, highlighting its ability to leverage diverse human preference data.
- Abstract(参考訳): 大規模言語モデル(llm)と人間の価値観の整合は、人工知能(agi)の開発に不可欠である。
このアライメントを達成するための1つの有望なアプローチは、人間のフィードバックからの強化学習であり、人間の嗜好データセットから学んだ報酬モデル(RM)を用いて、人間の嗜好に沿ったテキストを生成する。
本稿では,報酬分布の集中的な実験と分析を通じて,選好データセットの多様性について考察する。
したがって、多様な人間の嗜好データセットを混ぜてデータサイズを増やし、報酬モデリングを強化することは失敗する可能性がある。
この問題に対処し、多様な選好から共有された人間価値を捉えるために、多様な選好にまたがる選好目標を適応的に調整することにより、選好バイアスを最小化する more と呼ばれる新しいトレーニングポリシーが導入された。
Pythia-1.4Bモデルと5つの混合嗜好データセットによる実験により、MOREはより優れた報奨精度と低いキャリブレーション誤差を達成し、多様な人の嗜好データを活用する能力を強調している。
関連論文リスト
- Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - BAPO: Base-Anchored Preference Optimization for Overcoming Forgetting in Large Language Models Personalization [26.526171463511332]
本稿では,パーソナライズされた好み最適化が大規模言語モデル(LLM)に与える影響について検討する。
BAPOは、グローバルな知識や一般的なアライメントを最小限に抑えながら、多様なユーザの好みに効果的に適応する。
論文 参考訳(メタデータ) (2024-06-30T13:30:04Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。