論文の概要: Towards Understanding Sycophancy in Language Models
- arxiv url: http://arxiv.org/abs/2310.13548v3
- Date: Fri, 27 Oct 2023 17:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 16:24:05.076538
- Title: Towards Understanding Sycophancy in Language Models
- Title(参考訳): 言語モデルにおける語彙理解に向けて
- Authors: Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda
Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds,
Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal
Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez
- Abstract要約: 人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
- 参考スコア(独自算出の注目度): 49.99654432561934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human feedback is commonly utilized to finetune AI assistants. But human
feedback may also encourage model responses that match user beliefs over
truthful ones, a behaviour known as sycophancy. We investigate the prevalence
of sycophancy in models whose finetuning procedure made use of human feedback,
and the potential role of human preference judgments in such behavior. We first
demonstrate that five state-of-the-art AI assistants consistently exhibit
sycophancy across four varied free-form text-generation tasks. To understand if
human preferences drive this broadly observed behavior, we analyze existing
human preference data. We find that when a response matches a user's views, it
is more likely to be preferred. Moreover, both humans and preference models
(PMs) prefer convincingly-written sycophantic responses over correct ones a
non-negligible fraction of the time. Optimizing model outputs against PMs also
sometimes sacrifices truthfulness in favor of sycophancy. Overall, our results
indicate that sycophancy is a general behavior of state-of-the-art AI
assistants, likely driven in part by human preference judgments favoring
sycophantic responses.
- Abstract(参考訳): 人間のフィードバックはAIアシスタントの微調整に一般的に利用される。
しかし、人間のフィードバックは、真実に満ちたものに対するユーザーの信念と一致するモデル反応を奨励するかもしれない。
微調整手順が人間のフィードバックを生かしたモデルにおける統合失調の頻度と,その行動における人間の選好判断の潜在的役割について検討した。
まず、最先端の5つのAIアシスタントが、4つの異なる自由形式のテキスト生成タスクに一貫してサイコファシーを示すことを実証した。
人間の嗜好が広範に観察された行動を引き起こすかどうかを理解するために,既存の嗜好データを解析する。
レスポンスがユーザのビューにマッチする場合、より好まれる可能性が高いことが分かりました。
さらに、人間と選好モデル(pms)は、正しいものよりも説得力に書かれたシコファンティックな反応を好む。
pmsに対するモデル出力の最適化は、時としてシンコファンシーに有利な真理を犠牲にする。
総じて、統合失調症は最先端のaiアシスタントの一般的な行動であり、その原因の一部は、統合失調症反応を好む人間の嗜好判断によるものであることが示唆された。
関連論文リスト
- Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour [0.8133739801185272]
主観的意見と文を含む問合せに対して,Large Language Models (LLMs) がサイコファン傾向を示すことを示す。
様々なスケールのLCMは、正しい回答を提供する自信を示すことによって、ユーザのヒントに従わないように思われる。
論文 参考訳(メタデータ) (2023-11-15T22:18:33Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Alignment with human representations supports robust few-shot learning [14.918671859247429]
我々は、人間との表現的アライメントの程度と、数発の学習課題におけるパフォーマンスとの間には、U字型の関係があることを示すべきである。
また、高度に整合したモデルは、自然な敵攻撃とドメインシフトの両方に対してより堅牢であることを示す。
以上の結果から,人間のアライメントはしばしば十分ではあるが必要ではないことが示唆された。
論文 参考訳(メタデータ) (2023-01-27T21:03:19Z) - The Effect of Modeling Human Rationality Level on Learning Rewards from
Multiple Feedback Types [38.37216644899506]
フィードバックタイプ毎の実データに有理性係数を基礎付けることは、報奨学習に有意な影響を与えると論じる。
一つのフィードバックタイプから学習すると、人間の合理性を過度に見積もると、報酬の正確さと後悔に恐ろしい影響が生じることがわかりました。
論文 参考訳(メタデータ) (2022-08-23T02:19:10Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。