論文の概要: Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback
- arxiv url: http://arxiv.org/abs/2409.00162v1
- Date: Fri, 30 Aug 2024 16:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 16:37:47.886216
- Title: Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback
- Title(参考訳): シーケンス・リワード・モデリングへのシーケンス:言語フィードバックによるRLHFの改善
- Authors: Jiayi Zhou, Jiaming Ji, Juntao Dai, Yaodong Yang,
- Abstract要約: 人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
- 参考スコア(独自算出の注目度): 8.601283886845664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning the behavior of Large language models (LLMs) with human intentions and values remains a critical challenge. Reinforcement learning from human feedback (RLHF) aligns LLMs by training a reward model (RM) on human preferences and fine-tuning the LLMs to maximize RM feedback. Despite its effectiveness and popularity, RLHF is prone to biased local optimization. It means RM fails to provide feedback that accurately aligns with human preference, causing LLMs to explore unexpected generalizations, and failing to achieve alignment objectives. To mitigate this issue, we propose a novel \textit{sequence-to-sequence (seq2seq) reward modeling} method. Its key insight is that learning from language feedback rather than scalar feedback improves RLHF without additional annotations. We replaced the reward modeling target from binary maximum likelihood estimation (MLE) with sequence MLE. This method enables richer and fine-grained language feedback without additional annotations, models, or training stages. Our experiments demonstrated its effectiveness, specifically, reducing the refusal-to-response paradigm in single-turn safety dialogues and the long-response bias in text summarization tasks. We provide further analysis that seq2seq RM improves RLHF performance across 2B and 7B LLMs on 3 NLP tasks, achieving an average win rate of 76.9\%. We further show that seq2seq RM can still improve the performance of RLHF under out-of-distribution prompts.
- Abstract(参考訳): 大規模言語モデル(LLM)の行動と人間の意図と価値の調整は、依然として重要な課題である。
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに基づいて報酬モデル(RM)を訓練し、LLMを微調整することで、RMフィードバックを最大化する。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
つまり、RMは人間の好みと正確に一致したフィードバックを提供しず、LCMは予期せぬ一般化を探求し、アライメントの目的を達成することができない。
この問題を軽減するために,新しい「textit{sequence-to-sequence (seq2seq) reward modeling}」法を提案する。
その重要な洞察は、スカラーフィードバックではなく言語フィードバックから学ぶことは、追加のアノテーションなしでRLHFを改善することである。
報酬モデルの対象をバイナリ最大推定(MLE)からシーケンスMLEに置き換えた。
この方法は、追加のアノテーションやモデル、トレーニング段階を使わずに、よりリッチできめ細かい言語フィードバックを可能にする。
本実験は, テキスト要約作業において, シングルターン安全対話における拒絶応答パラダイムの低減と, 長時間応答バイアスを低減させる効果を実証した。
さらに,Seq2seq RMは3つのNLPタスクにおける2Bおよび7B LLM間のRLHF性能を改善し,平均勝率76.9\%を達成する。
さらに,Seq2seq RMは,分布外プロンプト下でのRLHFの性能を向上させることができることを示す。
関連論文リスト
- Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model [96.20350225621813]
人間からのフィードバックからの強化学習(RLHF)は、言語モデル(LM)を人間の好みに合わせるために広く採用されている。
本稿では,セグメントレベルの報酬モデルを用いて,学習と活用の両面での優位性を追求する。
論文 参考訳(メタデータ) (2025-01-06T06:17:56Z) - Linear Probe Penalties Reduce LLM Sycophancy [3.6490659260835234]
大規模言語モデル(LLM)は、しばしばサイコファンであり、正確または客観的なステートメントよりもユーザとの合意を優先する。
ヒトフィードバック(RLHF)からの強化学習において、この問題行動はより顕著になる
本研究では,報酬モデル内でサイコファンシーのマーカーを識別し,ペナルティ化する線形探索法を開発し,サイコファンの行動を妨げる報酬を生成する。
論文 参考訳(メタデータ) (2024-12-01T21:11:28Z) - R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - Post-hoc Reward Calibration: A Case Study on Length Bias [28.266675778940133]
リワードモデル(RM)は、トレーニングデータに突発的な相関を利用してバイアスを発生させることができる。
これらのバイアスは、誤った出力ランキング、準最適モデル評価、望ましくない振る舞いの増幅につながる可能性がある。
本稿では、追加データやトレーニングを使わずにバイアスを修正するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-25T22:30:42Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。
報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。
RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-30T09:57:21Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。