論文の概要: Aligning to What? Limits to RLHF Based Alignment
- arxiv url: http://arxiv.org/abs/2503.09025v1
- Date: Wed, 12 Mar 2025 03:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:27.496088
- Title: Aligning to What? Limits to RLHF Based Alignment
- Title(参考訳): RLHFに基づくアライメントの限界
- Authors: Logan Barnhart, Reza Akbarian Bafghi, Stephen Becker, Maziar Raissi,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みを合わせるためにますます使われている。
本研究では,大言語モデルにおけるRLHFとカバートバイアス,オーバートバイアスの関係について検討した。
- 参考スコア(独自算出の注目度): 2.624902795082451
- License:
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is increasingly used to align large language models (LLMs) with human preferences. However, the effectiveness of RLHF in addressing underlying biases remains unclear. This study investigates the relationship between RLHF and both covert and overt biases in LLMs, particularly focusing on biases against African Americans. We applied various RLHF techniques (DPO, ORPO, and RLOO) to Llama 3 8B and evaluated the covert and overt biases of the resulting models using matched-guise probing and explicit bias testing. We performed additional tests with DPO on different base models and datasets; among several implications, we found that SFT before RLHF calcifies model biases. Additionally, we extend the tools for measuring biases to multi-modal models. Through our experiments we collect evidence that indicates that current alignment techniques are inadequate for nebulous tasks such as mitigating covert biases, highlighting the need for capable datasets, data curating techniques, or alignment tools.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるためにますます使われている。
しかし、根底にあるバイアスに対処するRLHFの有効性は未だ不明である。
本研究では、LLMにおけるRLHFとカバートバイアスとオーバートバイアスの関係について検討し、特にアフリカ系アメリカ人に対するバイアスに着目した。
Llama 3 8B に様々な RLHF 技術 (DPO, ORPO, RLOO) を適用し, 整合探索および明示的偏差試験を用いて, 得られたモデルの隠蔽偏差とオーバート偏差を評価した。
我々は、異なるベースモデルとデータセットでDPOによる追加テストを行い、いくつかの意味から、RLHF以前のSFTがモデルバイアスを計算していることがわかった。
さらに、バイアスを測定するツールをマルチモーダルモデルに拡張する。
私たちの実験を通じて、現在のアライメント技術は、隠蔽バイアスの軽減、有能なデータセットの必要性の強調、データキュレート技術、アライメントツールなど、不適切なタスクに不適切であることを示す証拠を集めました。
関連論文リスト
- How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Measuring memorization in RLHF for code completion [18.3607188787591]
人間のフィードバックによる強化学習(RLHF)が,大規模モデルをユーザの好みに合わせる主要な手法となっている。
我々は、RLHFの各フェーズと直接選好学習を通じて、トレーニングデータの記憶がどのように表出し、伝播するかを分析する。
我々の研究は、RLHFが直接選好学習とは対照的に、大きな言語モデルを調整する際に、センシティブな選好データを抽出するリスクを軽減するための、より安全な方法であることを示唆している。
論文 参考訳(メタデータ) (2024-06-17T16:33:35Z) - On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。
我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。
本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文 参考訳(メタデータ) (2024-05-26T07:00:05Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Disentangling Length from Quality in Direct Preference Optimization [93.74831404396174]
RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。
RLHFは、冗長性のような人間の嗜好のバイアスを利用することが知られている。
我々は,モデル品質の改善を維持しつつ,長さの搾取を防止するための基本的かつ単純な正規化戦略を開発する。
論文 参考訳(メタデータ) (2024-03-28T06:03:47Z) - Understanding the Effects of RLHF on LLM Generalisation and Diversity [26.56388427640671]
人間のフィードバック(RLHF)からの強化学習によって微調整された大規模言語モデル(LLM)は、これまで最も広くデプロイされたAIモデルの一部で使用されている。
プロセスの各段階が2つの重要な特性、すなわちアウト・オブ・ディストリビューション(OOD)の一般化と出力の多様性にどのように影響するかを解析する。
論文 参考訳(メタデータ) (2023-10-10T09:25:44Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - Mitigating the Alignment Tax of RLHF [76.4300447532456]
強化学習(Reinforcement Learning)とヒューマンフィードバック(Human Feedback)の下のLLMの調整は、事前訓練された能力(アライメント税(アライメント税)としても知られる)を忘れてしまう可能性がある。
最小アライメント税を課しながらアライメント性能を最大化するためのモデル平均化を提案する。
我々は,OpenLLaMA-3B上でのRLHFアルゴリズムによるHMAの性能評価を行い,さらにMistral-7Bまで拡張した。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。