論文の概要: When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour
- arxiv url: http://arxiv.org/abs/2311.09410v4
- Date: Tue, 24 Jun 2025 19:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.394058
- Title: When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour
- Title(参考訳): 大規模言語モデルが人間と矛盾する時 : 大規模言語モデルのシコファン的行動
- Authors: Leonardo Ranaldi, Giulia Pucci,
- Abstract要約: 本研究では,サイコファンティック行動に対する大規模言語モデルの提案可能性について検討する。
この行動は梅毒(sycophancy)として知られ、LLMが誤解を招く反応を引き起こす傾向を描いている。
- 参考スコア(独自算出の注目度): 0.8133739801185272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models have been demonstrating broadly satisfactory generative abilities for users, which seems to be due to the intensive use of human feedback that refines responses. Nevertheless, suggestibility inherited via human feedback improves the inclination to produce answers corresponding to users' viewpoints. This behaviour is known as sycophancy and depicts the tendency of LLMs to generate misleading responses as long as they align with humans. This phenomenon induces bias and reduces the robustness and, consequently, the reliability of these models. In this paper, we study the suggestibility of Large Language Models (LLMs) to sycophantic behaviour, analysing these tendencies via systematic human-interventions prompts over different tasks. Our investigation demonstrates that LLMs have sycophantic tendencies when answering queries that involve subjective opinions and statements that should elicit a contrary response based on facts. In contrast, when faced with math tasks or queries with an objective answer, they, at various scales, do not follow the users' hints by demonstrating confidence in generating the correct answers.
- Abstract(参考訳): 大規模言語モデルは、反応を洗練させる人的フィードバックの集中的利用によると思われる、ユーザにとって幅広い満足な生成能力を示してきた。
それでも、人間のフィードバックによって受け継がれた提案性は、ユーザの視点に応じた回答を生み出す傾向を改善している。
この行動は梅毒(sycophancy)と呼ばれ、LLMが人間と協調する限り、誤解を招く反応を起こす傾向を描いている。
この現象はバイアスを引き起こし、ロバスト性を低下させ、その結果、これらのモデルの信頼性を低下させる。
本稿では,大規模言語モデル (LLM) のシコファン的行動への適応性について検討し,これらの傾向を系統的なヒューマン・インターベンションを通じて分析する。
本研究は, LLMが主観的意見と事実に基づく反対の反応を誘発する文を含む質問に答える際に, シコファン傾向があることを実証する。
対照的に、客観的な回答を持つ数学のタスクやクエリに直面すると、様々なスケールで、正しい回答を生成する上での自信を示すことによって、ユーザのヒントに従わない。
関連論文リスト
- Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Flattering to Deceive: The Impact of Sycophantic Behavior on User Trust in Large Language Model [0.0]
シコファンシー(Sycophancy)とは、大きな言語モデルが、そのアウトプットをユーザーの好み、信念、意見と整合させ、好意的に見せる傾向をいう。
本研究では,サイコファンの傾向が,大規模言語モデルにおけるユーザの信頼に悪影響を及ぼすか,あるいは逆に,そのような行動が好ましくないかを検討する。
論文 参考訳(メタデータ) (2024-12-03T20:07:41Z) - Why Would You Suggest That? Human Trust in Language Model Responses [0.3749861135832073]
フレーミングと説明の存在がユーザ信頼とモデルパフォーマンスにどのように影響するかを分析する。
今後の研究は、人間と機械のチームリングシステムにおける信頼度の評価を、より深く掘り下げることを目的としている。
論文 参考訳(メタデータ) (2024-06-04T06:57:47Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。
予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。
私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文 参考訳(メタデータ) (2023-11-14T19:00:55Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Towards Understanding Sycophancy in Language Models [49.99654432561934]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - The Curious Case of Hallucinatory (Un)answerability: Finding Truths in
the Hidden States of Over-Confident Large Language Models [46.990141872509476]
本研究では,大言語モデル (LLM) の問合せ時の動作について検討する。
この結果から,入力クエリの応答性を符号化したモデルが強く示唆され,最初の復号化トークンの表現が強い指標であることが示唆された。
論文 参考訳(メタデータ) (2023-10-18T11:01:09Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Improving Factual Consistency Between a Response and Persona Facts [64.30785349238619]
応答生成のためのニューラルネットワークは、意味論的に妥当であるが、必ずしも話者のペルソナを記述する事実と矛盾しない応答を生成する。
我々は,これらのモデルを強化学習により微調整し,応答とペルソナ事実の一貫性と意味的妥当性を明確に把握する効率的な報酬関数を提案する。
論文 参考訳(メタデータ) (2020-04-30T18:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。