論文の概要: Language Models Learn to Mislead Humans via RLHF
- arxiv url: http://arxiv.org/abs/2409.12822v1
- Date: Thu, 19 Sep 2024 14:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-26 02:58:25.707054
- Title: Language Models Learn to Mislead Humans via RLHF
- Title(参考訳): 言語モデルはRLHFを通して人間を誤解させる
- Authors: Jiaxin Wen, Ruiqi Zhong, Akbir Khan, Ethan Perez, Jacob Steinhardt, Minlie Huang, Samuel R. Boman, He He, Shi Feng,
- Abstract要約: 言語モデル(LM)は、特にタスクが複雑である場合に、人間にとって検出が難しいエラーを生成する。
我々はこの現象を標準のRLHFパイプラインで研究し、モデル開発者が意図していないことから「U-SOPHISTRY」と呼ぶ。
我々の研究は、RLHFの重要な障害モードを強調し、人間の調整を支援するためのさらなる研究を求めている。
- 参考スコア(独自算出の注目度): 81.31785712095075
- License:
- Abstract: Language models (LMs) can produce errors that are hard to detect for humans, especially when the task is complex. RLHF, the most popular post-training method, may exacerbate this problem: to achieve higher rewards, LMs might get better at convincing humans that they are right even when they are wrong. We study this phenomenon under a standard RLHF pipeline, calling it "U-SOPHISTRY" since it is Unintended by model developers. Specifically, we ask time-constrained (e.g., 3-10 minutes) human subjects to evaluate the correctness of model outputs and calculate humans' accuracy against gold labels. On a question-answering task (QuALITY) and programming task (APPS), RLHF makes LMs better at convincing our subjects but not at completing the task correctly. RLHF also makes the model harder to evaluate: our subjects' false positive rate increases by 24.1% on QuALITY and 18.3% on APPS. Finally, we show that probing, a state-of-the-art approach for detecting Intended Sophistry (e.g. backdoored LMs), does not generalize to U-SOPHISTRY. Our results highlight an important failure mode of RLHF and call for more research in assisting humans to align them.
- Abstract(参考訳): 言語モデル(LM)は、特にタスクが複雑である場合に、人間にとって検出が難しいエラーを生成する。
RLHFは、最も人気のあるポストトレーニング手法であり、より高い報酬を得るためには、人間が間違っている場合でも正しいことを人間に納得させることがより良くなる可能性がある。
我々はこの現象を標準のRLHFパイプラインで研究し、「U-SOPHISTRY」と呼ぶ。
具体的には、時間制約付き(例えば310分)の被験者に対して、モデル出力の正確性を評価し、金ラベルに対する人間の精度を計算する。
質問応答タスク(QuALITY)とプログラミングタスク(APPS)において、RLHFは、LMを被験者に納得させるのに優れているが、そのタスクを正しく完了させるには向いていない。
被験者の偽陽性率はQuALITYで24.1%、APPSで18.3%増加する。
最後に,Intended Sophistry (例: LMs) 検出の最先端手法であるプローブがU-SOPHISTRYに一般化されないことを示す。
我々の研究は、RLHFの重要な障害モードを強調し、人間の調整を支援するためのさらなる研究を求めている。
関連論文リスト
- ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from
Fine-grained Correctional Human Feedback [103.08766858584049]
RLHF-Vは、微粒な人間のフィードバックから行動アライメントを通じてMLLMの信頼性を高める。
自動評価と人的評価の両方で5つのベンチマーク実験を行った結果、RLHF-Vはより信頼性の高いMLLM動作を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-12-01T11:36:08Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - Reinforcement Learning in the Era of LLMs: What is Essential? What is
needed? An RL Perspective on RLHF, Prompting, and Beyond [8.044033685073003]
大規模言語モデルにおける人間のフィードバックからの強化学習
なぜ、いつ、どのようにRLが優れているのかを議論することで、このテクニックをデミスティフィケートする。
論文 参考訳(メタデータ) (2023-10-09T20:49:42Z) - SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to
RLHF [19.43122743768123]
提案するSteerLMは,ユーザによる推論時の応答制御を支援する教師付き微調整手法である。
SteerLM条件は、明示的に定義された多次元の属性セットに対応するために応答し、それによって、有用な高品質のレスポンスを生成することができるステアブルAIを増強する。
論文 参考訳(メタデータ) (2023-10-09T02:11:21Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。