論文の概要: Mitigating the Alignment Tax of RLHF
- arxiv url: http://arxiv.org/abs/2309.06256v3
- Date: Mon, 5 Feb 2024 06:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 05:18:43.835032
- Title: Mitigating the Alignment Tax of RLHF
- Title(参考訳): RLHFのアライメント税の緩和
- Authors: Yong Lin, Hangyu Lin, Wei Xiong, Shizhe Diao, Jianmeng Liu, Jipeng
Zhang, Rui Pan, Haoxiang Wang, Wenbin Hu, Hanning Zhang, Hanze Dong, Renjie
Pi, Han Zhao, Nan Jiang, Heng Ji, Yuan Yao, Tong Zhang
- Abstract要約: 人間フィードバックによる強化学習(Reinforcement Learning with Human Feedback, RLHF)は、アライメント税(アライメント税)としても知られる。
本稿では,RLHFモデル重みを補間するモデル平均化を提案し,より効率的な報酬税前処理を実現する。
- 参考スコア(独自算出の注目度): 77.7879015461373
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: LLMs acquire a wide range of abilities during pre-training, but aligning LLMs
under Reinforcement Learning with Human Feedback (RLHF) can lead to forgetting,
which is also known as the alignment tax. To empirically verify this
hypothesis, we conducted experiments with existing RLHF algorithms using
OpenLLaMA-3B, which revealed a pronounced alignment tax in NLP tasks. On the
other hand, despite various techniques to mitigate forgetting, they are often
at odds with the RLHF performance, leading to a trade-off between reward
maximization and forgetting mitigation.
In light of the above pressing issue in aligning LLMs, in this paper we
explore model averaging, which interpolates between pre and post RLHF model
weights, to achieve a more efficient reward-tax Pareto front. To understand its
effectiveness, We offer theoretical insights into model averaging, revealing
that it enhances performance Pareto front by increasing feature diversity on
the layers where tasks share overlapped feature spaces. Empirical evidence
corroborates our analysis by showing the benefits of averaging low-level
transformer layers. Building on the analysis and the observation that averaging
different layers of the transformer leads to significantly different reward-tax
trade-offs, we propose Adaptive Model Averaging (AMA) to adaptively find
various combination ratios of model layers. AMA seeks to maximize the alignment
reward while incurring minimal alignment tax. Moreover, we validate AMA's
performance across a range of RLHF algorithms over OpenLLaMA-3B and further
extend our findings to Mistral-7B.
- Abstract(参考訳): LLMは事前訓練中に幅広い能力を得るが、強化学習とヒューマンフィードバック(RLHF)の下でのLLMの整列は忘れてしまうことがある。
この仮説を実証的に検証するために,OpenLLaMA-3Bを用いて既存のRLHFアルゴリズムを用いて実験を行った。
一方、忘れを和らげる様々なテクニックにもかかわらず、RLHFのパフォーマンスとは相反することが多く、報酬の最大化と回避のトレードオフにつながる。
本稿では,上記のllmの整列化における課題を踏まえて,前・後rlhfモデル重みを補間したモデル平均化法を考察し,より効率的な報酬・タックス・パレート・フロントを実現する。
その効果を理解するため、我々はモデル平均化に関する理論的洞察を提供し、タスクが重なり合った機能空間を共有するレイヤ上で、機能多様性を増すことにより、パフォーマンスパレートを前もって向上させることを明らかにした。
低レベルトランスフォーマー層の平均化の利点を示すことによって、実証的な証拠が分析を裏付ける。
変換器の異なる層を平均化すると、報酬税のトレードオフが著しく異なるという分析と観察に基づいて、モデル層の様々な組み合わせ比を適応的に求める適応モデル平均化(AMA)を提案する。
AMAは最小限のアライメント税を課しながらアライメント報酬を最大化する。
さらに,OpenLLaMA-3B上でのRLHFアルゴリズムの性能評価を行い,さらにMistral-7Bまで拡張した。
関連論文リスト
- SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。
300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文 参考訳(メタデータ) (2024-06-07T12:25:51Z) - Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment [47.682736928029996]
大規模言語モデル(LLM)は、事前訓練と監視ファインチューニング(SFT)によって得られる能力の劣化を防止しつつ、人間中心の値と整合するように設計されている。
本稿では、RLHFとSFTモデルパラメータを補間することにより、人間の好みと基本能力のトレードオフを調整し、アライメント税を低減できることを示す。
これはアライメント税を軽減しつつアライメント報酬を大幅に向上させ、14のベンチマークで全体のパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-05-28T07:53:40Z) - On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。
我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。
本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文 参考訳(メタデータ) (2024-05-26T07:00:05Z) - Bridging The Gap between Low-rank and Orthogonal Adaptation via Householder Reflection Adaptation [32.371755315509574]
家庭内リフレクション適応法 (HRA) は, 家庭内リフレクションに基づく簡易かつ効果的な適応法である。
HRAは、大きな言語モデルと条件付き画像生成装置を適用する際に、学習可能なパラメータが少なくて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-24T16:18:16Z) - Understanding the Effects of RLHF on LLM Generalisation and Diversity [26.56388427640671]
人間のフィードバック(RLHF)からの強化学習によって微調整された大規模言語モデル(LLM)は、これまで最も広くデプロイされたAIモデルの一部で使用されている。
プロセスの各段階が2つの重要な特性、すなわちアウト・オブ・ディストリビューション(OOD)の一般化と出力の多様性にどのように影響するかを解析する。
論文 参考訳(メタデータ) (2023-10-10T09:25:44Z) - Supervised Hyperalignment for multi-subject fMRI data alignment [81.8694682249097]
本稿では,MVP解析における機能的アライメントを改善するために,SHA(Supervised Hyperalignment)手法を提案する。
マルチオブジェクトデータセットの実験では、SHA法は最大19%の性能がマルチクラス問題に対して達成されている。
論文 参考訳(メタデータ) (2020-01-09T09:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。