論文の概要: More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness
- arxiv url: http://arxiv.org/abs/2404.18870v1
- Date: Mon, 29 Apr 2024 17:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:48:52.967667
- Title: More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness
- Title(参考訳): よりRLHF、より信頼か? 言語モデル信頼性に対する人間の嗜好アライメントの影響
- Authors: Aaron J. Li, Satyapriya Krishna, Himabindu Lakkaraju,
- Abstract要約: 本研究は,5つの信頼性分野において,汎用的嗜好データに整合したモデルが,有益性と無害性に与える影響について検討した。
RLHFによる信頼性の向上は保証されるには程遠いものであり、嗜好データ、アライメントアルゴリズム、および特定の信頼性の側面の間には複雑な相互作用が存在する。
- 参考スコア(独自算出の注目度): 24.843692458375436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The surge in Large Language Models (LLMs) development has led to improved performance on cognitive tasks as well as an urgent need to align these models with human values in order to safely exploit their power. Despite the effectiveness of preference learning algorithms like Reinforcement Learning From Human Feedback (RLHF) in aligning human preferences, their assumed improvements on model trustworthiness haven't been thoroughly testified. Toward this end, this study investigates how models that have been aligned with general-purpose preference data on helpfulness and harmlessness perform across five trustworthiness verticals: toxicity, stereotypical bias, machine ethics, truthfulness, and privacy. For model alignment, we focus on three widely used RLHF variants: Supervised Finetuning (SFT), Proximal Policy Optimization (PPO), and Direct Preference Optimization (DPO). Through extensive empirical investigations, we discover that the improvement in trustworthiness by RLHF is far from guaranteed, and there exists a complex interplay between preference data, alignment algorithms, and specific trustworthiness aspects. Together, our results underscore the need for more nuanced approaches for model alignment. By shedding light on the intricate dynamics of these components within model alignment, we hope this research will guide the community towards developing language models that are both capable and trustworthy.
- Abstract(参考訳): LLM(Large Language Models)の開発が急増し、認知タスクのパフォーマンスが向上すると同時に、これらのモデルを人間の価値と整合させることで、そのパワーを安全に活用する必要性が高まっている。
Reinforcement Learning From Human Feedback (RLHF) のような選好学習アルゴリズムが人間の選好の調整に有効であるにもかかわらず、モデル信頼性の改善は十分に検証されていない。
本研究は, 有害性, ステレオタイプバイアス, 機械倫理, 真理性, プライバシの5分野において, 有用性と無害性に関する汎用的嗜好データと整合したモデルについて検討する。
モデルアライメントでは,Servised Finetuning (SFT), Proximal Policy Optimization (PPO), Direct Preference Optimization (DPO)の3種類のRLHF変異体に着目した。
広範な実証調査により、RLHFによる信頼性の向上は保証されるには程遠いことが分かり、嗜好データ、アライメントアルゴリズム、および特定の信頼性の側面の間には複雑な相互作用が存在することが判明した。
我々の結果は、モデルアライメントのためのよりニュアンスなアプローチの必要性を浮き彫りにした。
モデルアライメントにおけるこれらのコンポーネントの複雑なダイナミクスに光を当てることで、この研究が、能力と信頼性の両方を備えた言語モデルの開発に向けてコミュニティを導くことを期待します。
関連論文リスト
- Self-Consistency of the Internal Reward Models Improves Self-Rewarding Language Models [63.116041268654705]
同じ大言語モデル内の異なる内部報酬モデルが、しばしば矛盾した嗜好を生じさせることがわかった。
この矛盾は、自己生成の嗜好データの信頼性への懸念を高め、全体的なアライメントパフォーマンスを阻害し、さらなる研究の必要性を強調する。
トレーニング中に内部報酬モデル間の整合性を高めるための新しいフレームワークである自己一貫性内部報酬(SCIR)を提案する。
論文 参考訳(メタデータ) (2025-02-13T03:15:31Z) - Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment [30.605500809158986]
本稿では,因果推論を統合し,素因果関係を緩和する因果報酬モデリング手法を提案する。
提案手法は様々な種類のスプリアス相関を効果的に緩和し,LLMと人間の嗜好との整合性を高めた。
論文 参考訳(メタデータ) (2025-01-16T16:00:37Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Automated Trustworthiness Testing for Machine Learning Classifiers [3.3423762257383207]
本稿では,テキスト分類器が信頼に値するかどうかを判断する信頼度オラクルを自動生成するTOWERを提案する。
我々の仮説は、その説明中の単語が予測されたクラスと意味的に関連している場合、予測は信頼に値するというものである。
その結果,TOWERはノイズの増加に伴って信頼性の低下を検出することができるが,人為的ラベル付きデータセットに対して評価しても有効ではないことがわかった。
論文 参考訳(メタデータ) (2024-06-07T20:25:05Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - The Connection between Out-of-Distribution Generalization and Privacy of
ML Models [11.580603875423408]
より低いOOD一般化ギャップはMI攻撃に対するロバスト性を損なうことが示唆された。
安定した特徴をキャプチャするモデルは、より優れたOOD一般化を示すが安定した特徴を学習しないモデルよりも、MI攻撃に対して堅牢である。
証明可能な差分プライバシー保証と同様に、安定した機能を学ぶモデルは、他のものよりも高いユーティリティを提供する。
論文 参考訳(メタデータ) (2021-10-07T12:05:25Z) - Improving Confidence Estimation on Out-of-Domain Data for End-to-End
Speech Recognition [25.595147432155642]
本稿では,ドメイン外データに対するモデルに基づく信頼度推定法を改善するための2つの手法を提案する。
実験の結果,提案手法はTED-LiumデータセットとSwitchboardデータセットの信頼性指標を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-07T10:44:27Z) - Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。
DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。
MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文 参考訳(メタデータ) (2020-04-21T20:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。