論文の概要: Language Model Alignment with Elastic Reset
- arxiv url: http://arxiv.org/abs/2312.07551v1
- Date: Wed, 6 Dec 2023 22:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 14:35:30.473144
- Title: Language Model Alignment with Elastic Reset
- Title(参考訳): elastic resetによる言語モデルアライメント
- Authors: Michael Noukhovitch, Samuel Lavoie, Florian Strub, Aaron Courville
- Abstract要約: 一般的に使用されるテストメトリクスは、報酬とドリフトの間の異なるアルゴリズムのトレードオフを測定するには不十分である、と私たちは主張する。
我々は,トレーニング目標を明示的に変更することなく,ドリフトを少なくして高い報酬を達成する新しいアルゴリズムであるElastic Resetを提案する。
我々は、Elastic Resetを用いた微調整言語モデルが、小さなスケールのピボット変換ベンチマークで最先端のパフォーマンスをもたらすことを実証した。
- 参考スコア(独自算出の注目度): 8.503863369800191
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Finetuning language models with reinforcement learning (RL), e.g. from human
feedback (HF), is a prominent method for alignment. But optimizing against a
reward model can improve on reward while degrading performance in other areas,
a phenomenon known as reward hacking, alignment tax, or language drift. First,
we argue that commonly-used test metrics are insufficient and instead measure
how different algorithms tradeoff between reward and drift. The standard method
modified the reward with a Kullback-Lieber (KL) penalty between the online and
initial model. We propose Elastic Reset, a new algorithm that achieves higher
reward with less drift without explicitly modifying the training objective. We
periodically reset the online model to an exponentially moving average (EMA) of
itself, then reset the EMA model to the initial model. Through the use of an
EMA, our model recovers quickly after resets and achieves higher reward with
less drift in the same number of steps. We demonstrate that fine-tuning
language models with Elastic Reset leads to state-of-the-art performance on a
small scale pivot-translation benchmark, outperforms all baselines in a
medium-scale RLHF-like IMDB mock sentiment task and leads to a more performant
and more aligned technical QA chatbot with LLaMA-7B. Code available at
github.com/mnoukhov/elastic-reset.
- Abstract(参考訳): 強化学習(rl)による言語モデルの微調整(例えば、人的フィードバック(hf))は、アライメントの顕著な方法である。
しかし、報酬モデルに対する最適化は、報酬ハッキング、アライメント税、言語ドリフトとして知られる他の領域のパフォーマンスを低下させながら、報酬を改善できる。
まず、一般的に使用されるテストメトリクスは不十分であり、代わりに、報酬とドリフトの間の異なるアルゴリズムのトレードオフを測定する。
標準方法は、オンラインモデルと初期モデルの間のkullback-lieber(kl)ペナルティで報酬を変更した。
本研究では,学習目標を明示的に修正することなく,ドリフトを少なくして高い報酬を得る新しいアルゴリズムであるelastic resetを提案する。
オンラインモデルを指数移動平均(EMA)に定期的にリセットし、EMAモデルを初期モデルにリセットします。
EMAを用いることで、リセット後にモデルが迅速に回復し、同じステップ数でのドリフトを少なくして高い報酬を得る。
我々は、Elastic Resetを用いた微調整言語モデルにより、小規模のピボット翻訳ベンチマークにおける最先端のパフォーマンスが向上し、中規模のRLHFのようなIMDBモック感情タスクにおいて全てのベースラインを上回り、LLaMA-7Bによるより高性能で整合した技術的QAチャットボットが実現されることを示した。
github.com/mnoukhov/elastic-resetで利用可能なコード。
関連論文リスト
- Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。
この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
論文 参考訳(メタデータ) (2024-06-05T03:41:37Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Rethinking Model Re-Basin and Linear Mode Connectivity [1.1510009152620668]
我々は再正規化を再スケーリングと再シフトに分解し、再スケーリングが再正規化に重要な役割を果たしていることを明らかにする。
統合モデルでは, 活性化崩壊とマグニチュード崩壊の問題に悩まされている。
本稿では,リベースとプルーニングを統一する新たな視点を提案し,軽量で効果的なポストプルーニング手法を導出する。
論文 参考訳(メタデータ) (2024-02-05T17:06:26Z) - Iterative Data Smoothing: Mitigating Reward Overfitting and
Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。
学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。
本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文 参考訳(メタデータ) (2024-01-29T17:43:42Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z) - Aligned Cross Entropy for Non-Autoregressive Machine Translation [120.15069387374717]
非自己回帰モデルの学習における代替的損失関数としてアライメントクロスエントロピー(AXE)を提案する。
AXEに基づく条件付きマスキング言語モデル(CMLM)のトレーニングは、主要なWMTベンチマークの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-04-03T16:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。