Fugu-MT 論文翻訳(概要): Mitigating the Alignment Tax of RLHF

論文の概要: Mitigating the Alignment Tax of RLHF

arxiv url: http://arxiv.org/abs/2309.06256v3
Date: Mon, 5 Feb 2024 06:43:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 05:18:43.835032
Title: Mitigating the Alignment Tax of RLHF
Title（参考訳）: RLHFのアライメント税の緩和
Authors: Yong Lin, Hangyu Lin, Wei Xiong, Shizhe Diao, Jianmeng Liu, Jipeng Zhang, Rui Pan, Haoxiang Wang, Wenbin Hu, Hanning Zhang, Hanze Dong, Renjie Pi, Han Zhao, Nan Jiang, Heng Ji, Yuan Yao, Tong Zhang
Abstract要約: 人間フィードバックによる強化学習(Reinforcement Learning with Human Feedback, RLHF)は、アライメント税(アライメント税)としても知られる。本稿では,RLHFモデル重みを補間するモデル平均化を提案し,より効率的な報酬税前処理を実現する。
参考スコア（独自算出の注目度）: 77.7879015461373
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: LLMs acquire a wide range of abilities during pre-training, but aligning LLMs under Reinforcement Learning with Human Feedback (RLHF) can lead to forgetting, which is also known as the alignment tax. To empirically verify this hypothesis, we conducted experiments with existing RLHF algorithms using OpenLLaMA-3B, which revealed a pronounced alignment tax in NLP tasks. On the other hand, despite various techniques to mitigate forgetting, they are often at odds with the RLHF performance, leading to a trade-off between reward maximization and forgetting mitigation. In light of the above pressing issue in aligning LLMs, in this paper we explore model averaging, which interpolates between pre and post RLHF model weights, to achieve a more efficient reward-tax Pareto front. To understand its effectiveness, We offer theoretical insights into model averaging, revealing that it enhances performance Pareto front by increasing feature diversity on the layers where tasks share overlapped feature spaces. Empirical evidence corroborates our analysis by showing the benefits of averaging low-level transformer layers. Building on the analysis and the observation that averaging different layers of the transformer leads to significantly different reward-tax trade-offs, we propose Adaptive Model Averaging (AMA) to adaptively find various combination ratios of model layers. AMA seeks to maximize the alignment reward while incurring minimal alignment tax. Moreover, we validate AMA's performance across a range of RLHF algorithms over OpenLLaMA-3B and further extend our findings to Mistral-7B.
Abstract（参考訳）: LLMは事前訓練中に幅広い能力を得るが、強化学習とヒューマンフィードバック(RLHF)の下でのLLMの整列は忘れてしまうことがある。この仮説を実証的に検証するために,OpenLLaMA-3Bを用いて既存のRLHFアルゴリズムを用いて実験を行った。一方、忘れを和らげる様々なテクニックにもかかわらず、RLHFのパフォーマンスとは相反することが多く、報酬の最大化と回避のトレードオフにつながる。本稿では,上記のllmの整列化における課題を踏まえて,前・後rlhfモデル重みを補間したモデル平均化法を考察し,より効率的な報酬・タックス・パレート・フロントを実現する。その効果を理解するため、我々はモデル平均化に関する理論的洞察を提供し、タスクが重なり合った機能空間を共有するレイヤ上で、機能多様性を増すことにより、パフォーマンスパレートを前もって向上させることを明らかにした。低レベルトランスフォーマー層の平均化の利点を示すことによって、実証的な証拠が分析を裏付ける。変換器の異なる層を平均化すると、報酬税のトレードオフが著しく異なるという分析と観察に基づいて、モデル層の様々な組み合わせ比を適応的に求める適応モデル平均化(AMA)を提案する。 AMAは最小限のアライメント税を課しながらアライメント報酬を最大化する。さらに,OpenLLaMA-3B上でのRLHFアルゴリズムの性能評価を行い,さらにMistral-7Bまで拡張した。

関連論文リスト

The Hidden Link Between RLHF and Contrastive Learning [24.828596020853727]
本稿では,人間フィードバックからの強化学習と直接選好最適化が相互情報の観点から解釈可能であることを示す。このフレームワーク内では、RLHFとDPOの両方を、対照的な学習を行う方法と見なすことができる。この観点からDV/MINE境界をJensen-Shannon MI推定器に置き換え、相互情報最適化を提案する。
論文参考訳（メタデータ） (2025-06-27T18:51:25Z)
Aligning to What? Limits to RLHF Based Alignment [2.624902795082451]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みを合わせるためにますます使われている。本研究では,大言語モデルにおけるRLHFとカバートバイアス,オーバートバイアスの関係について検討した。
論文参考訳（メタデータ） (2025-03-12T03:24:44Z)
Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文参考訳（メタデータ） (2025-02-24T05:24:52Z)
Simplify RLHF as Reward-Weighted SFT: A Variational Method [34.222095430239555]
RLHF(Reinforcement Learning from Human Feedback)は、Large Language Models(LLM)と人的価値の整合に不可欠である。変分推論の観点からRLHFの単純化を提案する。我々は、アライメント目標を報酬駆動型微調整形式に変換し、トレーニングの安定性と効果を顕著に向上させる。
論文参考訳（メタデータ） (2025-02-16T07:22:00Z)
Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits [59.30310692855397]
本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。 RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文参考訳（メタデータ） (2024-06-21T18:05:35Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。 300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文参考訳（メタデータ） (2024-06-07T12:25:51Z)
Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment [47.682736928029996]
大規模言語モデル(LLM)は、事前訓練と監視ファインチューニング(SFT)によって得られる能力の劣化を防止しつつ、人間中心の値と整合するように設計されている。本稿では、RLHFとSFTモデルパラメータを補間することにより、人間の好みと基本能力のトレードオフを調整し、アライメント税を低減できることを示す。これはアライメント税を軽減しつつアライメント報酬を大幅に向上させ、14のベンチマークで全体のパフォーマンスを向上する。
論文参考訳（メタデータ） (2024-05-28T07:53:40Z)
On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文参考訳（メタデータ） (2024-05-26T07:00:05Z)
Bridging The Gap between Low-rank and Orthogonal Adaptation via Householder Reflection Adaptation [32.371755315509574]
家庭内リフレクション適応法 (HRA) は, 家庭内リフレクションに基づく簡易かつ効果的な適応法である。 HRAは、大きな言語モデルと条件付き画像生成装置を適用する際に、学習可能なパラメータが少なくて優れた性能を実現する。
論文参考訳（メタデータ） (2024-05-24T16:18:16Z)
Understanding the Effects of RLHF on LLM Generalisation and Diversity [26.56388427640671]
人間のフィードバック(RLHF)からの強化学習によって微調整された大規模言語モデル(LLM)は、これまで最も広くデプロイされたAIモデルの一部で使用されている。プロセスの各段階が2つの重要な特性、すなわちアウト・オブ・ディストリビューション(OOD)の一般化と出力の多様性にどのように影響するかを解析する。
論文参考訳（メタデータ） (2023-10-10T09:25:44Z)
Supervised Hyperalignment for multi-subject fMRI data alignment [81.8694682249097]
本稿では,MVP解析における機能的アライメントを改善するために,SHA(Supervised Hyperalignment)手法を提案する。マルチオブジェクトデータセットの実験では、SHA法は最大19%の性能がマルチクラス問題に対して達成されている。
論文参考訳（メタデータ） (2020-01-09T09:17:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。