論文の概要: Mitigating the Alignment Tax of RLHF
- arxiv url: http://arxiv.org/abs/2309.06256v3
- Date: Mon, 5 Feb 2024 06:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 05:18:43.835032
- Title: Mitigating the Alignment Tax of RLHF
- Title(参考訳): RLHFのアライメント税の緩和
- Authors: Yong Lin, Hangyu Lin, Wei Xiong, Shizhe Diao, Jianmeng Liu, Jipeng
Zhang, Rui Pan, Haoxiang Wang, Wenbin Hu, Hanning Zhang, Hanze Dong, Renjie
Pi, Han Zhao, Nan Jiang, Heng Ji, Yuan Yao, Tong Zhang
- Abstract要約: 人間フィードバックによる強化学習(Reinforcement Learning with Human Feedback, RLHF)は、アライメント税(アライメント税)としても知られる。
本稿では,RLHFモデル重みを補間するモデル平均化を提案し,より効率的な報酬税前処理を実現する。
- 参考スコア(独自算出の注目度): 77.7879015461373
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: LLMs acquire a wide range of abilities during pre-training, but aligning LLMs
under Reinforcement Learning with Human Feedback (RLHF) can lead to forgetting,
which is also known as the alignment tax. To empirically verify this
hypothesis, we conducted experiments with existing RLHF algorithms using
OpenLLaMA-3B, which revealed a pronounced alignment tax in NLP tasks. On the
other hand, despite various techniques to mitigate forgetting, they are often
at odds with the RLHF performance, leading to a trade-off between reward
maximization and forgetting mitigation.
In light of the above pressing issue in aligning LLMs, in this paper we
explore model averaging, which interpolates between pre and post RLHF model
weights, to achieve a more efficient reward-tax Pareto front. To understand its
effectiveness, We offer theoretical insights into model averaging, revealing
that it enhances performance Pareto front by increasing feature diversity on
the layers where tasks share overlapped feature spaces. Empirical evidence
corroborates our analysis by showing the benefits of averaging low-level
transformer layers. Building on the analysis and the observation that averaging
different layers of the transformer leads to significantly different reward-tax
trade-offs, we propose Adaptive Model Averaging (AMA) to adaptively find
various combination ratios of model layers. AMA seeks to maximize the alignment
reward while incurring minimal alignment tax. Moreover, we validate AMA's
performance across a range of RLHF algorithms over OpenLLaMA-3B and further
extend our findings to Mistral-7B.
- Abstract(参考訳): LLMは事前訓練中に幅広い能力を得るが、強化学習とヒューマンフィードバック(RLHF)の下でのLLMの整列は忘れてしまうことがある。
この仮説を実証的に検証するために,OpenLLaMA-3Bを用いて既存のRLHFアルゴリズムを用いて実験を行った。
一方、忘れを和らげる様々なテクニックにもかかわらず、RLHFのパフォーマンスとは相反することが多く、報酬の最大化と回避のトレードオフにつながる。
本稿では,上記のllmの整列化における課題を踏まえて,前・後rlhfモデル重みを補間したモデル平均化法を考察し,より効率的な報酬・タックス・パレート・フロントを実現する。
その効果を理解するため、我々はモデル平均化に関する理論的洞察を提供し、タスクが重なり合った機能空間を共有するレイヤ上で、機能多様性を増すことにより、パフォーマンスパレートを前もって向上させることを明らかにした。
低レベルトランスフォーマー層の平均化の利点を示すことによって、実証的な証拠が分析を裏付ける。
変換器の異なる層を平均化すると、報酬税のトレードオフが著しく異なるという分析と観察に基づいて、モデル層の様々な組み合わせ比を適応的に求める適応モデル平均化(AMA)を提案する。
AMAは最小限のアライメント税を課しながらアライメント報酬を最大化する。
さらに,OpenLLaMA-3B上でのRLHFアルゴリズムの性能評価を行い,さらにMistral-7Bまで拡張した。
関連論文リスト
- Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - Uncertainty-Penalized Reinforcement Learning from Human Feedback with
Diverse Reward LoRA Ensembles [26.955375398765085]
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の整合性のための有望なパラダイムとして出現する。
本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。
本稿では,RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。
論文 参考訳(メタデータ) (2023-12-30T14:14:14Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Understanding the Effects of RLHF on LLM Generalisation and Diversity [26.56388427640671]
人間のフィードバック(RLHF)からの強化学習によって微調整された大規模言語モデル(LLM)は、これまで最も広くデプロイされたAIモデルの一部で使用されている。
プロセスの各段階が2つの重要な特性、すなわちアウト・オブ・ディストリビューション(OOD)の一般化と出力の多様性にどのように影響するかを解析する。
論文 参考訳(メタデータ) (2023-10-10T09:25:44Z) - Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for
Pruning LLMs to High Sparsity [81.61101014156924]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。
本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。
OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文 参考訳(メタデータ) (2023-10-08T14:22:58Z) - UltraFeedback: Boosting Language Models with High-quality Feedback [77.55342076933047]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要な技術となっている。
現在の選好データセットは、プロプライエタリなものか、サイズが限定されているか、あるいはプロプライエタリなものかのいずれかで、オープンソースモデルでのRLHFの採用が制限されている。
本稿では,これらの制限を克服し,RLHF開発を促進するために,大規模で高品質で多様な嗜好データセットを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - Supervised Hyperalignment for multi-subject fMRI data alignment [81.8694682249097]
本稿では,MVP解析における機能的アライメントを改善するために,SHA(Supervised Hyperalignment)手法を提案する。
マルチオブジェクトデータセットの実験では、SHA法は最大19%の性能がマルチクラス問題に対して達成されている。
論文 参考訳(メタデータ) (2020-01-09T09:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。