論文の概要: Towards Understanding Sycophancy in Language Models
- arxiv url: http://arxiv.org/abs/2310.13548v1
- Date: Fri, 20 Oct 2023 14:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 22:35:07.590333
- Title: Towards Understanding Sycophancy in Language Models
- Title(参考訳): 言語モデルにおける語彙理解に向けて
- Authors: Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda
Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds,
Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal
Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez
- Abstract要約: 人間のフィードバックからの強化学習(RLHF)は、高品質なAIアシスタントを訓練するための一般的なテクニックである。
RLHF訓練モデルにおける梅毒の有病率とヒトの嗜好判断が関与するか否かについて検討した。
- 参考スコア(独自算出の注目度): 49.99654432561934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is a popular technique for
training high-quality AI assistants. However, RLHF may also encourage model
responses that match user beliefs over truthful responses, a behavior known as
sycophancy. We investigate the prevalence of sycophancy in RLHF-trained models
and whether human preference judgements are responsible. We first demonstrate
that five state-of-the-art AI assistants consistently exhibit sycophantic
behavior across four varied free-form text-generation tasks. To understand if
human preferences drive this broadly observed behavior of RLHF models, we
analyze existing human preference data. We find that when a response matches a
user's views, it is more likely to be preferred. Moreover, both humans and
preference models (PMs) prefer convincingly-written sycophantic responses over
correct ones a negligible fraction of the time. Optimizing model outputs
against PMs also sometimes sacrifices truthfulness in favor of sycophancy.
Overall, our results indicate that sycophancy is a general behavior of RLHF
models, likely driven in part by human preference judgements favoring
sycophantic responses.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、高品質なAIアシスタントを訓練するための一般的なテクニックである。
しかし、RLHFはまた、真の反応に対するユーザの信念と一致するモデル応答を奨励するかもしれない。
RLHF訓練モデルにおける梅毒の有病率と人間の嗜好判断が原因かを検討する。
まず,5つの最先端aiアシスタントが,4つの自由形式のテキスト生成タスクに対して一貫して共語行動を示すことを実証した。
人間の嗜好がRLHFモデルの広範に観察された振る舞いを駆動するかどうかを理解するために,既存の嗜好データを分析する。
レスポンスがユーザのビューにマッチする場合、より好まれる可能性が高いことが分かりました。
さらに、人間と選好モデル(pms)は、正しいものよりも説得力に書かれたシコファンティックな反応を好む。
pmsに対するモデル出力の最適化は、時としてシンコファンシーに有利な真理を犠牲にする。
以上の結果から, 梅毒はRLHFモデルの一般的な行動である可能性が示唆された。
関連論文リスト
- Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour [0.8133739801185272]
主観的意見と文を含む問合せに対して,Large Language Models (LLMs) がサイコファン傾向を示すことを示す。
様々なスケールのLCMは、正しい回答を提供する自信を示すことによって、ユーザのヒントに従わないように思われる。
論文 参考訳(メタデータ) (2023-11-15T22:18:33Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Alignment with human representations supports robust few-shot learning [14.918671859247429]
我々は、人間との表現的アライメントの程度と、数発の学習課題におけるパフォーマンスとの間には、U字型の関係があることを示すべきである。
また、高度に整合したモデルは、自然な敵攻撃とドメインシフトの両方に対してより堅牢であることを示す。
以上の結果から,人間のアライメントはしばしば十分ではあるが必要ではないことが示唆された。
論文 参考訳(メタデータ) (2023-01-27T21:03:19Z) - The Effect of Modeling Human Rationality Level on Learning Rewards from
Multiple Feedback Types [38.37216644899506]
フィードバックタイプ毎の実データに有理性係数を基礎付けることは、報奨学習に有意な影響を与えると論じる。
一つのフィードバックタイプから学習すると、人間の合理性を過度に見積もると、報酬の正確さと後悔に恐ろしい影響が生じることがわかりました。
論文 参考訳(メタデータ) (2022-08-23T02:19:10Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。