論文の概要: More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness
- arxiv url: http://arxiv.org/abs/2404.18870v2
- Date: Sat, 21 Dec 2024 22:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:46.376766
- Title: More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness
- Title(参考訳): よりRLHF、より信頼? 選好アライメントが信頼に与える影響について
- Authors: Aaron J. Li, Satyapriya Krishna, Himabindu Lakkaraju,
- Abstract要約: 本研究では,5つの信頼性分野において,汎用的嗜好データに整合したモデルがどのように機能するかを検討する。
ヒトの嗜好に対するRLHFは、自動的に信頼性を保証せず、しばしば逆効果が観察される。
本稿では,RLHF設定に効率的な影響関数に基づくデータ帰属手法を適用し,個々の信頼性ベンチマークに対する微調整データの影響をよりよく理解するために提案する。
- 参考スコア(独自算出の注目度): 24.843692458375436
- License:
- Abstract: The trustworthiness of Large Language Models (LLMs) refers to the extent to which their outputs are reliable, safe, and ethically aligned, and it has become a crucial consideration alongside their cognitive performance. In practice, Reinforcement Learning From Human Feedback (RLHF) has been widely used to align LLMs with labeled human preferences, but its assumed effect on model trustworthiness hasn't been rigorously evaluated. To bridge this knowledge gap, this study investigates how models aligned with general-purpose preference data perform across five trustworthiness verticals: toxicity, stereotypical bias, machine ethics, truthfulness, and privacy. Our results demonstrate that RLHF on human preferences doesn't automatically guarantee trustworthiness, and reverse effects are often observed. Furthermore, we propose to adapt efficient influence function based data attribution methods to the RLHF setting to better understand the influence of fine-tuning data on individual trustworthiness benchmarks, and show its feasibility by providing our estimated attribution scores. Together, our results underscore the need for more nuanced approaches for model alignment from both the data and framework perspectives, and we hope this research will guide the community towards developing language models that are increasingly capable without sacrificing trustworthiness.
- Abstract(参考訳): LLM(Large Language Models)の信頼性は、アウトプットが信頼性、安全、倫理的に整合している範囲を指しており、認知能力とともに重要な考慮事項となっている。
実際には、人間からのフィードバックからの強化学習(RLHF)は、LLMをラベル付き人間の好みに合わせるために広く用いられてきたが、モデル信頼性に対するその仮定効果は厳密に評価されていない。
この知識ギャップを埋めるために、本研究では、毒性、ステレオタイプバイアス、機械倫理、真理性、プライバシの5つの信頼性分野において、汎用的嗜好データと整合したモデルがどのように機能するかを調査する。
ヒトの嗜好に対するRLHFは、自動的に信頼性を保証せず、しばしば逆効果が観察される。
さらに、RLHF設定に効率的な影響関数に基づくデータ帰属手法を適用し、個別の信頼性ベンチマークに対する微調整データの影響をよりよく理解し、推定属性スコアを提供することにより、その実現可能性を示す。
データとフレームワークの両方の観点から、モデルアライメントのためのよりきめ細やかなアプローチの必要性を強調します。この研究は、信頼性を犠牲にすることなく、より多くの能力を持つ言語モデルの開発に向けて、コミュニティを導くことを願っています。
関連論文リスト
- Self-Consistency of the Internal Reward Models Improves Self-Rewarding Language Models [63.116041268654705]
同じ大言語モデル内の異なる内部報酬モデルが、しばしば矛盾した嗜好を生じさせることがわかった。
この矛盾は、自己生成の嗜好データの信頼性への懸念を高め、全体的なアライメントパフォーマンスを阻害し、さらなる研究の必要性を強調する。
トレーニング中に内部報酬モデル間の整合性を高めるための新しいフレームワークである自己一貫性内部報酬(SCIR)を提案する。
論文 参考訳(メタデータ) (2025-02-13T03:15:31Z) - Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment [30.605500809158986]
本稿では,因果推論を統合し,素因果関係を緩和する因果報酬モデリング手法を提案する。
提案手法は様々な種類のスプリアス相関を効果的に緩和し,LLMと人間の嗜好との整合性を高めた。
論文 参考訳(メタデータ) (2025-01-16T16:00:37Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Automated Trustworthiness Testing for Machine Learning Classifiers [3.3423762257383207]
本稿では,テキスト分類器が信頼に値するかどうかを判断する信頼度オラクルを自動生成するTOWERを提案する。
我々の仮説は、その説明中の単語が予測されたクラスと意味的に関連している場合、予測は信頼に値するというものである。
その結果,TOWERはノイズの増加に伴って信頼性の低下を検出することができるが,人為的ラベル付きデータセットに対して評価しても有効ではないことがわかった。
論文 参考訳(メタデータ) (2024-06-07T20:25:05Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - The Connection between Out-of-Distribution Generalization and Privacy of
ML Models [11.580603875423408]
より低いOOD一般化ギャップはMI攻撃に対するロバスト性を損なうことが示唆された。
安定した特徴をキャプチャするモデルは、より優れたOOD一般化を示すが安定した特徴を学習しないモデルよりも、MI攻撃に対して堅牢である。
証明可能な差分プライバシー保証と同様に、安定した機能を学ぶモデルは、他のものよりも高いユーティリティを提供する。
論文 参考訳(メタデータ) (2021-10-07T12:05:25Z) - Improving Confidence Estimation on Out-of-Domain Data for End-to-End
Speech Recognition [25.595147432155642]
本稿では,ドメイン外データに対するモデルに基づく信頼度推定法を改善するための2つの手法を提案する。
実験の結果,提案手法はTED-LiumデータセットとSwitchboardデータセットの信頼性指標を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-07T10:44:27Z) - Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。
DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。
MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文 参考訳(メタデータ) (2020-04-21T20:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。