論文の概要: On Diverse Preferences for Large Language Model Alignment
- arxiv url: http://arxiv.org/abs/2312.07401v1
- Date: Tue, 12 Dec 2023 16:17:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:12:39.345749
- Title: On Diverse Preferences for Large Language Model Alignment
- Title(参考訳): 大規模言語モデルアライメントの多様な選好について
- Authors: Dun Zeng, Yong Dai, Pengyu Cheng, Tianhao Hu, Wanshun Chen, Nan Du,
Zenglin Xu
- Abstract要約: 本稿では,様々な嗜好にまたがる嗜好目標を適応的に調整することで,嗜好バイアスを最小限に抑えるMOREを提案する。
MOREはより優れた報酬精度と低いキャリブレーション誤差を実現し、多様な人間の嗜好データを活用する能力を強調している。
- 参考スコア(独自算出の注目度): 39.217429347482145
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The alignment of large language models (LLMs) with human values is crucial
for the development of artificial general intelligence (AGI). One promising
approach to achieve this alignment is reinforcement learning from human
feedback, which employs a reward model (RM) learned from human preference
datasets to guide LLMs in generating text that aligns with human preferences.
Through intensive experiments and analysis of reward distribution, this paper
finds that preference datasets are diverse from each other, even though they
are all proposed to align human preference. Hence, mixing diverse human
preference datasets to increase data size for enhancing reward modeling could
fail. To address the issue and capture the shared human values from diverse
preferences, a new training policy called MORE is introduced, which minimizes
preference bias by adaptively adjusting the preference objective across diverse
preferences. Experiments with the Pythia-1.4B model and five mixed preference
datasets show that MORE achieves superior reward accuracy and lower calibration
error, highlighting its ability to leverage diverse human preference data.
- Abstract(参考訳): 大規模言語モデル(llm)と人間の価値観の整合は、人工知能(agi)の開発に不可欠である。
このアライメントを達成するための1つの有望なアプローチは、人間のフィードバックからの強化学習であり、人間の嗜好データセットから学んだ報酬モデル(RM)を用いて、人間の嗜好に沿ったテキストを生成する。
本稿では,報酬分布の集中的な実験と分析を通じて,選好データセットの多様性について考察する。
したがって、多様な人間の嗜好データセットを混ぜてデータサイズを増やし、報酬モデリングを強化することは失敗する可能性がある。
この問題に対処し、多様な選好から共有された人間価値を捉えるために、多様な選好にまたがる選好目標を適応的に調整することにより、選好バイアスを最小化する more と呼ばれる新しいトレーニングポリシーが導入された。
Pythia-1.4Bモデルと5つの混合嗜好データセットによる実験により、MOREはより優れた報奨精度と低いキャリブレーション誤差を達成し、多様な人の嗜好データを活用する能力を強調している。
関連論文リスト
- Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Compositional preference models for aligning LMs [15.036426712762147]
構成的選好モデル(CPM)は、一つのグローバルな選好評価をいくつかの解釈可能な特徴に分解するフレームワークである。
CPMは、選好データのどの特性を使って選好モデルを訓練するかを制御し、人間の選好判断を過小評価していると考えられる特徴に基づいて構築することができる。
論文 参考訳(メタデータ) (2023-10-17T01:31:59Z) - UltraFeedback: Boosting Language Models with High-quality Feedback [77.55342076933047]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要な技術となっている。
現在の選好データセットは、プロプライエタリなものか、サイズが限定されているか、あるいはプロプライエタリなものかのいずれかで、オープンソースモデルでのRLHFの採用が制限されている。
本稿では,これらの制限を克服し,RLHF開発を促進するために,大規模で高品質で多様な嗜好データセットを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。
本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。
本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文 参考訳(メタデータ) (2023-09-13T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。