Fugu-MT 論文翻訳(概要): Language Model Alignment with Elastic Reset

論文の概要: Language Model Alignment with Elastic Reset

arxiv url: http://arxiv.org/abs/2312.07551v1
Date: Wed, 6 Dec 2023 22:53:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 14:35:30.473144
Title: Language Model Alignment with Elastic Reset
Title（参考訳）: elastic resetによる言語モデルアライメント
Authors: Michael Noukhovitch, Samuel Lavoie, Florian Strub, Aaron Courville
Abstract要約: 一般的に使用されるテストメトリクスは、報酬とドリフトの間の異なるアルゴリズムのトレードオフを測定するには不十分である、と私たちは主張する。我々は,トレーニング目標を明示的に変更することなく,ドリフトを少なくして高い報酬を達成する新しいアルゴリズムであるElastic Resetを提案する。我々は、Elastic Resetを用いた微調整言語モデルが、小さなスケールのピボット変換ベンチマークで最先端のパフォーマンスをもたらすことを実証した。
参考スコア（独自算出の注目度）: 8.503863369800191
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Finetuning language models with reinforcement learning (RL), e.g. from human feedback (HF), is a prominent method for alignment. But optimizing against a reward model can improve on reward while degrading performance in other areas, a phenomenon known as reward hacking, alignment tax, or language drift. First, we argue that commonly-used test metrics are insufficient and instead measure how different algorithms tradeoff between reward and drift. The standard method modified the reward with a Kullback-Lieber (KL) penalty between the online and initial model. We propose Elastic Reset, a new algorithm that achieves higher reward with less drift without explicitly modifying the training objective. We periodically reset the online model to an exponentially moving average (EMA) of itself, then reset the EMA model to the initial model. Through the use of an EMA, our model recovers quickly after resets and achieves higher reward with less drift in the same number of steps. We demonstrate that fine-tuning language models with Elastic Reset leads to state-of-the-art performance on a small scale pivot-translation benchmark, outperforms all baselines in a medium-scale RLHF-like IMDB mock sentiment task and leads to a more performant and more aligned technical QA chatbot with LLaMA-7B. Code available at github.com/mnoukhov/elastic-reset.
Abstract（参考訳）: 強化学習(rl)による言語モデルの微調整(例えば、人的フィードバック(hf))は、アライメントの顕著な方法である。しかし、報酬モデルに対する最適化は、報酬ハッキング、アライメント税、言語ドリフトとして知られる他の領域のパフォーマンスを低下させながら、報酬を改善できる。まず、一般的に使用されるテストメトリクスは不十分であり、代わりに、報酬とドリフトの間の異なるアルゴリズムのトレードオフを測定する。標準方法は、オンラインモデルと初期モデルの間のkullback-lieber(kl)ペナルティで報酬を変更した。本研究では,学習目標を明示的に修正することなく,ドリフトを少なくして高い報酬を得る新しいアルゴリズムであるelastic resetを提案する。オンラインモデルを指数移動平均(EMA)に定期的にリセットし、EMAモデルを初期モデルにリセットします。 EMAを用いることで、リセット後にモデルが迅速に回復し、同じステップ数でのドリフトを少なくして高い報酬を得る。我々は、Elastic Resetを用いた微調整言語モデルにより、小規模のピボット翻訳ベンチマークにおける最先端のパフォーマンスが向上し、中規模のRLHFのようなIMDBモック感情タスクにおいて全てのベースラインを上回り、LLaMA-7Bによるより高性能で整合した技術的QAチャットボットが実現されることを示した。 github.com/mnoukhov/elastic-resetで利用可能なコード。

関連論文リスト

Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文参考訳（メタデータ） (2025-07-02T05:10:29Z)
The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [43.310209758380886]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文参考訳（メタデータ） (2025-06-02T06:10:54Z)
Sentence-level Reward Model can Generalize Better for Aligning LLM from Human Preference [27.205035058481553]
我々は各文にスコアを割り当て、中間粒度の報酬モデルを導入することを提案する。すべての文のスコアを応答レベルスコアに集約する新しい注意機構が導入された。提案手法はRewardBench上で応答レベル報酬モデルを2.7%向上させる。
論文参考訳（メタデータ） (2025-03-01T14:11:04Z)
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-02-14T18:59:51Z)
CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文参考訳（メタデータ） (2024-10-28T21:18:49Z)
Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文参考訳（メタデータ） (2024-08-30T16:14:35Z)
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
論文参考訳（メタデータ） (2024-06-05T03:41:37Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Rethinking Model Re-Basin and Linear Mode Connectivity [1.1510009152620668]
我々は再正規化を再スケーリングと再シフトに分解し、再スケーリングが再正規化に重要な役割を果たしていることを明らかにする。統合モデルでは, 活性化崩壊とマグニチュード崩壊の問題に悩まされている。本稿では,リベースとプルーニングを統一する新たな視点を提案し,軽量で効果的なポストプルーニング手法を導出する。
論文参考訳（メタデータ） (2024-02-05T17:06:26Z)
Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文参考訳（メタデータ） (2024-01-29T17:43:42Z)
Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文参考訳（メタデータ） (2022-10-19T17:56:10Z)
Aligned Cross Entropy for Non-Autoregressive Machine Translation [120.15069387374717]
非自己回帰モデルの学習における代替的損失関数としてアライメントクロスエントロピー(AXE)を提案する。 AXEに基づく条件付きマスキング言語モデル(CMLM)のトレーニングは、主要なWMTベンチマークの性能を大幅に向上させる。
論文参考訳（メタデータ） (2020-04-03T16:24:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。