論文の概要: More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness
- arxiv url: http://arxiv.org/abs/2404.18870v1
- Date: Mon, 29 Apr 2024 17:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:48:52.967667
- Title: More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness
- Title(参考訳): よりRLHF、より信頼か? 言語モデル信頼性に対する人間の嗜好アライメントの影響
- Authors: Aaron J. Li, Satyapriya Krishna, Himabindu Lakkaraju,
- Abstract要約: 本研究は,5つの信頼性分野において,汎用的嗜好データに整合したモデルが,有益性と無害性に与える影響について検討した。
RLHFによる信頼性の向上は保証されるには程遠いものであり、嗜好データ、アライメントアルゴリズム、および特定の信頼性の側面の間には複雑な相互作用が存在する。
- 参考スコア(独自算出の注目度): 24.843692458375436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The surge in Large Language Models (LLMs) development has led to improved performance on cognitive tasks as well as an urgent need to align these models with human values in order to safely exploit their power. Despite the effectiveness of preference learning algorithms like Reinforcement Learning From Human Feedback (RLHF) in aligning human preferences, their assumed improvements on model trustworthiness haven't been thoroughly testified. Toward this end, this study investigates how models that have been aligned with general-purpose preference data on helpfulness and harmlessness perform across five trustworthiness verticals: toxicity, stereotypical bias, machine ethics, truthfulness, and privacy. For model alignment, we focus on three widely used RLHF variants: Supervised Finetuning (SFT), Proximal Policy Optimization (PPO), and Direct Preference Optimization (DPO). Through extensive empirical investigations, we discover that the improvement in trustworthiness by RLHF is far from guaranteed, and there exists a complex interplay between preference data, alignment algorithms, and specific trustworthiness aspects. Together, our results underscore the need for more nuanced approaches for model alignment. By shedding light on the intricate dynamics of these components within model alignment, we hope this research will guide the community towards developing language models that are both capable and trustworthy.
- Abstract(参考訳): LLM(Large Language Models)の開発が急増し、認知タスクのパフォーマンスが向上すると同時に、これらのモデルを人間の価値と整合させることで、そのパワーを安全に活用する必要性が高まっている。
Reinforcement Learning From Human Feedback (RLHF) のような選好学習アルゴリズムが人間の選好の調整に有効であるにもかかわらず、モデル信頼性の改善は十分に検証されていない。
本研究は, 有害性, ステレオタイプバイアス, 機械倫理, 真理性, プライバシの5分野において, 有用性と無害性に関する汎用的嗜好データと整合したモデルについて検討する。
モデルアライメントでは,Servised Finetuning (SFT), Proximal Policy Optimization (PPO), Direct Preference Optimization (DPO)の3種類のRLHF変異体に着目した。
広範な実証調査により、RLHFによる信頼性の向上は保証されるには程遠いことが分かり、嗜好データ、アライメントアルゴリズム、および特定の信頼性の側面の間には複雑な相互作用が存在することが判明した。
我々の結果は、モデルアライメントのためのよりニュアンスなアプローチの必要性を浮き彫りにした。
モデルアライメントにおけるこれらのコンポーネントの複雑なダイナミクスに光を当てることで、この研究が、能力と信頼性の両方を備えた言語モデルの開発に向けてコミュニティを導くことを期待します。
関連論文リスト
- Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models [46.09562860220433]
暗黙のフィードバック(特に眼球追跡(ET)データ)をReward Model(RM)に統合する新しいフレームワークであるGazeRewardを紹介します。
提案手法は、確立された人間の嗜好データセット上でのRMの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T13:24:56Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Aligning Large Language Models with Human Preferences through Representation Engineering [41.81020951061438]
表現工学(RepE)の新たな分野から着想を得た本研究は,LLM内の活動パターンに埋め込まれた高レベルの人間の嗜好の関連表現を特定することを目的としている。
この新しいアプローチは、人間フィードバックからの表現アライメント(Representation Alignment from Human Feedback、RAHF)と呼ばれ、効果的で、計算的に効率的で、実装が容易であることが証明されている。
論文 参考訳(メタデータ) (2023-12-26T11:01:36Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。