Fugu-MT 論文翻訳(概要): Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback

論文の概要: Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback

arxiv url: http://arxiv.org/abs/2409.00162v1
Date: Fri, 30 Aug 2024 16:14:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 16:37:47.886216
Title: Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback
Title（参考訳）: シーケンス・リワード・モデリングへのシーケンス:言語フィードバックによるRLHFの改善
Authors: Jiayi Zhou, Jiaming Ji, Juntao Dai, Yaodong Yang,
Abstract要約: 人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
参考スコア（独自算出の注目度）: 8.601283886845664
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Aligning the behavior of Large language models (LLMs) with human intentions and values remains a critical challenge. Reinforcement learning from human feedback (RLHF) aligns LLMs by training a reward model (RM) on human preferences and fine-tuning the LLMs to maximize RM feedback. Despite its effectiveness and popularity, RLHF is prone to biased local optimization. It means RM fails to provide feedback that accurately aligns with human preference, causing LLMs to explore unexpected generalizations, and failing to achieve alignment objectives. To mitigate this issue, we propose a novel \textit{sequence-to-sequence (seq2seq) reward modeling} method. Its key insight is that learning from language feedback rather than scalar feedback improves RLHF without additional annotations. We replaced the reward modeling target from binary maximum likelihood estimation (MLE) with sequence MLE. This method enables richer and fine-grained language feedback without additional annotations, models, or training stages. Our experiments demonstrated its effectiveness, specifically, reducing the refusal-to-response paradigm in single-turn safety dialogues and the long-response bias in text summarization tasks. We provide further analysis that seq2seq RM improves RLHF performance across 2B and 7B LLMs on 3 NLP tasks, achieving an average win rate of 76.9\%. We further show that seq2seq RM can still improve the performance of RLHF under out-of-distribution prompts.
Abstract（参考訳）: 大規模言語モデル(LLM)の行動と人間の意図と価値の調整は、依然として重要な課題である。人間からのフィードバック(RLHF)からの強化学習は、人間の好みに基づいて報酬モデル(RM)を訓練し、LLMを微調整することで、RMフィードバックを最大化する。その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。つまり、RMは人間の好みと正確に一致したフィードバックを提供しず、LCMは予期せぬ一般化を探求し、アライメントの目的を達成することができない。この問題を軽減するために,新しい「textit{sequence-to-sequence (seq2seq) reward modeling}」法を提案する。その重要な洞察は、スカラーフィードバックではなく言語フィードバックから学ぶことは、追加のアノテーションなしでRLHFを改善することである。報酬モデルの対象をバイナリ最大推定(MLE)からシーケンスMLEに置き換えた。この方法は、追加のアノテーションやモデル、トレーニング段階を使わずに、よりリッチできめ細かい言語フィードバックを可能にする。本実験は, テキスト要約作業において, シングルターン安全対話における拒絶応答パラダイムの低減と, 長時間応答バイアスを低減させる効果を実証した。さらに,Seq2seq RMは3つのNLPタスクにおける2Bおよび7B LLM間のRLHF性能を改善し,平均勝率76.9\%を達成する。さらに,Seq2seq RMは,分布外プロンプト下でのRLHFの性能を向上させることができることを示す。

関連論文リスト

Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文参考訳（メタデータ） (2025-07-21T11:19:04Z)
Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping [0.0]
強化学習はしばしば報酬の相違を伴う課題に直面します。 HIL(Human-in-the-loop)メソッドは、不整合性、主観的、あるいは不整合性フィードバックにつながるバイアスが伴うため、問題を悪化させる可能性がある。
論文参考訳（メタデータ） (2025-03-26T03:17:12Z)
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model [96.20350225621813]
人間からのフィードバックからの強化学習(RLHF)は、言語モデル(LM)を人間の好みに合わせるために広く採用されている。本稿では,セグメントレベルの報酬モデルを用いて,学習と活用の両面での優位性を追求する。
論文参考訳（メタデータ） (2025-01-06T06:17:56Z)
Linear Probe Penalties Reduce LLM Sycophancy [3.6490659260835234]
大規模言語モデル(LLM)は、しばしばサイコファンであり、正確または客観的なステートメントよりもユーザとの合意を優先する。ヒトフィードバック(RLHF)からの強化学習において、この問題行動はより顕著になる本研究では,報酬モデル内でサイコファンシーのマーカーを識別し,ペナルティ化する線形探索法を開発し,サイコファンの行動を妨げる報酬を生成する。
論文参考訳（メタデータ） (2024-12-01T21:11:28Z)
R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-11-01T07:29:03Z)
Post-hoc Reward Calibration: A Case Study on Length Bias [28.266675778940133]
リワードモデル(RM)は、トレーニングデータに突発的な相関を利用してバイアスを発生させることができる。これらのバイアスは、誤った出力ランキング、準最適モデル評価、望ましくない振る舞いの増幅につながる可能性がある。本稿では、追加データやトレーニングを使わずにバイアスを修正するという課題に対処する。
論文参考訳（メタデータ） (2024-09-25T22:30:42Z)
ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback [13.154512864498912]
強化学習(RL)と教師付きファインチューニング(SFT)を交互に行う2段階アルゴリズムARESを提案する。第一に、我々は教師に、各文が問題の解決にどれだけ貢献するかを、CoT(Chain-of-Thought)で得点するように要求する。次に,教師にRL後の誤った推論の修正を依頼する。補正フィードバックにより,SFTによるRL微調整モデルを安定化する。
論文参考訳（メタデータ） (2024-06-25T07:20:11Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。 RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-04-30T09:57:21Z)
ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。 LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文参考訳（メタデータ） (2024-02-11T22:40:12Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。