論文の概要: Flattering to Deceive: The Impact of Sycophantic Behavior on User Trust in Large Language Model
- arxiv url: http://arxiv.org/abs/2412.02802v1
- Date: Tue, 03 Dec 2024 20:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:46.234353
- Title: Flattering to Deceive: The Impact of Sycophantic Behavior on User Trust in Large Language Model
- Title(参考訳): 認知へのフラッタリング:大言語モデルにおけるシコファン的行動がユーザ信頼に及ぼす影響
- Authors: María Victoria Carro,
- Abstract要約: シコファンシー(Sycophancy)とは、大きな言語モデルが、そのアウトプットをユーザーの好み、信念、意見と整合させ、好意的に見せる傾向をいう。
本研究では,サイコファンの傾向が,大規模言語モデルにおけるユーザの信頼に悪影響を及ぼすか,あるいは逆に,そのような行動が好ましくないかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sycophancy refers to the tendency of a large language model to align its outputs with the user's perceived preferences, beliefs, or opinions, in order to look favorable, regardless of whether those statements are factually correct. This behavior can lead to undesirable consequences, such as reinforcing discriminatory biases or amplifying misinformation. Given that sycophancy is often linked to human feedback training mechanisms, this study explores whether sycophantic tendencies negatively impact user trust in large language models or, conversely, whether users consider such behavior as favorable. To investigate this, we instructed one group of participants to answer ground-truth questions with the assistance of a GPT specifically designed to provide sycophantic responses, while another group used the standard version of ChatGPT. Initially, participants were required to use the language model, after which they were given the option to continue using it if they found it trustworthy and useful. Trust was measured through both demonstrated actions and self-reported perceptions. The findings consistently show that participants exposed to sycophantic behavior reported and exhibited lower levels of trust compared to those who interacted with the standard version of the model, despite the opportunity to verify the accuracy of the model's output.
- Abstract(参考訳): シコファシー(Sycophancy)とは、大きな言語モデルが、そのアウトプットをユーザの認識した好み、信念、意見と整合させ、それらの主張が事実的に正しいかどうかに関わらず好意的に見せる傾向をいう。
この行動は、差別バイアスの強化や誤報の増幅など、望ましくない結果をもたらす可能性がある。
本研究は,ヒトのフィードバック学習機構にサイコファンシーが関係していることを考えると,大きな言語モデルにおけるユーザの信頼に悪影響を及ぼすのか,あるいは,そのような行動が好ましくないと考えるのかを考察する。
そこで我々は,あるグループの参加者に対して,幻覚反応の提供を目的としたGPTの助けを借りて,基礎的な質問に答えるように指示し,他のグループはChatGPTの標準版を使用した。
最初は、参加者は言語モデルを使わなければなりませんでしたが、その後、信頼でき、役に立つと判断すれば、引き続き使用する選択肢が与えられました。
信頼は、実証された行動と自己報告された知覚の両方を通して測定された。
その結果, モデル出力の精度を検証する機会があるにもかかわらず, シコファンの行動に曝露した被験者は, モデル標準版と対話した被験者に比べて信頼度が低いことが明らかとなった。
関連論文リスト
- Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.909363478929]
本研究では,権威ある情報源から収集した19の実世界統計に着目した。
主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。
事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文 参考訳(メタデータ) (2025-02-09T10:54:11Z) - Accounting for Sycophancy in Language Model Uncertainty Estimation [28.08509288774144]
梅毒率と不確実性評価との関係を初めて検討した。
ユーザの信頼感は,梅毒の影響を調節する上で重要な役割を担っていることを示す。
モデルとユーザの不確実性の両方を外部化することは、梅毒のバイアスの影響を軽減するのに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T18:00:25Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Why Would You Suggest That? Human Trust in Language Model Responses [0.3749861135832073]
フレーミングと説明の存在がユーザ信頼とモデルパフォーマンスにどのように影響するかを分析する。
今後の研究は、人間と機械のチームリングシステムにおける信頼度の評価を、より深く掘り下げることを目的としている。
論文 参考訳(メタデータ) (2024-06-04T06:57:47Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour [0.8133739801185272]
主観的意見と文を含む問合せに対して,Large Language Models (LLMs) がサイコファン傾向を示すことを示す。
様々なスケールのLCMは、正しい回答を提供する自信を示すことによって、ユーザのヒントに従わないように思われる。
論文 参考訳(メタデータ) (2023-11-15T22:18:33Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Causal Disentanglement for Semantics-Aware Intent Learning in
Recommendation [30.85573846018658]
そこで本研究では,CaDSIと呼ばれる非バイアス・セマンティクス対応のアンタングル学習を提案する。
CaDSIは、リコメンデーションタスクの根底にある因果関係を明示的にモデル化する。
特定のアイテムコンテキストに気付く真の意図を、ユーザを遠ざけることによって、セマンティクスに気付く表現を生成する。
論文 参考訳(メタデータ) (2022-02-05T15:17:03Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。