論文の概要: Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback
- arxiv url: http://arxiv.org/abs/2310.05199v5
- Date: Wed, 29 Nov 2023 14:45:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:28:27.103618
- Title: Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback
- Title(参考訳): ゆるい唇シンク船:人間フィードバックからの強化学習における長さバイアスの軽減
- Authors: Wei Shen, Rui Zheng, Wenyu Zhan, Jun Zhao, Shihan Dou, Tao Gui, Qi
Zhang, Xuanjing Huang
- Abstract要約: 人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
- 参考スコア(独自算出の注目度): 55.78118035358662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from human feedback serves as a crucial bridge,
aligning large language models with human and societal values. This alignment
requires a vast corpus of human feedback to learn a reward model, which is
subsequently used to finetune language models. However, we have identified that
the reward model often finds shortcuts to bypass its intended objectives,
misleadingly assuming that humans prefer longer responses. The emergence of
length bias often induces the model to favor longer outputs, yet it doesn't
equate to an increase in helpful information within these outputs. In this
paper, we propose an innovative solution, applying the Product-of-Experts (PoE)
technique to separate reward modeling from the influence of sequence length. In
our framework, the main expert concentrates on understanding human intents,
while the biased expert targets the identification and capture of length bias.
To further enhance the learning of bias, we introduce perturbations into the
bias-focused expert, disrupting the flow of semantic information. Experimental
results validate the effectiveness of our approach, indicating that language
model performance is improved, irrespective of sequence length.
- Abstract(参考訳): 人間のフィードバックからの強化学習は重要な橋渡しとなり、大きな言語モデルと人間と社会の価値観を結びつける。
このアライメントには、報酬モデルを学ぶために膨大な人間のフィードバックが必要であり、その後言語モデルの微調整に使用される。
しかし、報酬モデルが意図した目的を回避できるショートカットを見つけることがしばしばあり、人間がより長い反応を好むと誤解を招く。
長さバイアスの出現は、しばしばより長い出力を好むようモデルに誘導するが、これらの出力内で有用な情報の増加には相当しない。
本稿では,報酬モデルとシーケンス長の影響を分離するためにProduct-of-Experts(PoE)技術を適用した革新的なソリューションを提案する。
我々のフレームワークでは、主要な専門家は人間の意図を理解することに集中し、偏りのある専門家は長さバイアスの識別と捕捉を目標としています。
偏見の学習をさらに促進するために,偏見に着目した専門家に摂動を導入し,意味情報の流路を乱す。
提案手法の有効性を実験的に検証し,シーケンス長に関わらず,言語モデルの性能が向上したことを示す。
関連論文リスト
- Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour [0.8133739801185272]
主観的意見と文を含む問合せに対して,Large Language Models (LLMs) がサイコファン傾向を示すことを示す。
様々なスケールのLCMは、正しい回答を提供する自信を示すことによって、ユーザのヒントに従わないように思われる。
論文 参考訳(メタデータ) (2023-11-15T22:18:33Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Causal Disentanglement for Semantics-Aware Intent Learning in
Recommendation [30.85573846018658]
そこで本研究では,CaDSIと呼ばれる非バイアス・セマンティクス対応のアンタングル学習を提案する。
CaDSIは、リコメンデーションタスクの根底にある因果関係を明示的にモデル化する。
特定のアイテムコンテキストに気付く真の意図を、ユーザを遠ざけることによって、セマンティクスに気付く表現を生成する。
論文 参考訳(メタデータ) (2022-02-05T15:17:03Z) - Natural Language Inference with a Human Touch: Using Human Explanations
to Guide Model Attention [39.41947934589526]
人間の説明によるトレーニングは、モデルが文章全体に広く参加することを奨励する。
教師付きモデルは、人間が信じている言葉に付随し、より堅牢でより優れたNLIモデルを生成する。
論文 参考訳(メタデータ) (2021-04-16T14:45:35Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。