論文の概要: Language Model Alignment with Elastic Reset
- arxiv url: http://arxiv.org/abs/2312.07551v1
- Date: Wed, 6 Dec 2023 22:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 14:35:30.473144
- Title: Language Model Alignment with Elastic Reset
- Title(参考訳): elastic resetによる言語モデルアライメント
- Authors: Michael Noukhovitch, Samuel Lavoie, Florian Strub, Aaron Courville
- Abstract要約: 一般的に使用されるテストメトリクスは、報酬とドリフトの間の異なるアルゴリズムのトレードオフを測定するには不十分である、と私たちは主張する。
我々は,トレーニング目標を明示的に変更することなく,ドリフトを少なくして高い報酬を達成する新しいアルゴリズムであるElastic Resetを提案する。
我々は、Elastic Resetを用いた微調整言語モデルが、小さなスケールのピボット変換ベンチマークで最先端のパフォーマンスをもたらすことを実証した。
- 参考スコア(独自算出の注目度): 8.503863369800191
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Finetuning language models with reinforcement learning (RL), e.g. from human
feedback (HF), is a prominent method for alignment. But optimizing against a
reward model can improve on reward while degrading performance in other areas,
a phenomenon known as reward hacking, alignment tax, or language drift. First,
we argue that commonly-used test metrics are insufficient and instead measure
how different algorithms tradeoff between reward and drift. The standard method
modified the reward with a Kullback-Lieber (KL) penalty between the online and
initial model. We propose Elastic Reset, a new algorithm that achieves higher
reward with less drift without explicitly modifying the training objective. We
periodically reset the online model to an exponentially moving average (EMA) of
itself, then reset the EMA model to the initial model. Through the use of an
EMA, our model recovers quickly after resets and achieves higher reward with
less drift in the same number of steps. We demonstrate that fine-tuning
language models with Elastic Reset leads to state-of-the-art performance on a
small scale pivot-translation benchmark, outperforms all baselines in a
medium-scale RLHF-like IMDB mock sentiment task and leads to a more performant
and more aligned technical QA chatbot with LLaMA-7B. Code available at
github.com/mnoukhov/elastic-reset.
- Abstract(参考訳): 強化学習(rl)による言語モデルの微調整(例えば、人的フィードバック(hf))は、アライメントの顕著な方法である。
しかし、報酬モデルに対する最適化は、報酬ハッキング、アライメント税、言語ドリフトとして知られる他の領域のパフォーマンスを低下させながら、報酬を改善できる。
まず、一般的に使用されるテストメトリクスは不十分であり、代わりに、報酬とドリフトの間の異なるアルゴリズムのトレードオフを測定する。
標準方法は、オンラインモデルと初期モデルの間のkullback-lieber(kl)ペナルティで報酬を変更した。
本研究では,学習目標を明示的に修正することなく,ドリフトを少なくして高い報酬を得る新しいアルゴリズムであるelastic resetを提案する。
オンラインモデルを指数移動平均(EMA)に定期的にリセットし、EMAモデルを初期モデルにリセットします。
EMAを用いることで、リセット後にモデルが迅速に回復し、同じステップ数でのドリフトを少なくして高い報酬を得る。
我々は、Elastic Resetを用いた微調整言語モデルにより、小規模のピボット翻訳ベンチマークにおける最先端のパフォーマンスが向上し、中規模のRLHFのようなIMDBモック感情タスクにおいて全てのベースラインを上回り、LLaMA-7Bによるより高性能で整合した技術的QAチャットボットが実現されることを示した。
github.com/mnoukhov/elastic-resetで利用可能なコード。
関連論文リスト
- MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。
この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
論文 参考訳(メタデータ) (2024-06-05T03:41:37Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z) - Aligned Cross Entropy for Non-Autoregressive Machine Translation [120.15069387374717]
非自己回帰モデルの学習における代替的損失関数としてアライメントクロスエントロピー(AXE)を提案する。
AXEに基づく条件付きマスキング言語モデル(CMLM)のトレーニングは、主要なWMTベンチマークの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-04-03T16:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。