論文の概要: When Large Language Models contradict humans? Large Language Models'
Sycophantic Behaviour
- arxiv url: http://arxiv.org/abs/2311.09410v1
- Date: Wed, 15 Nov 2023 22:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:29:58.063784
- Title: When Large Language Models contradict humans? Large Language Models'
Sycophantic Behaviour
- Title(参考訳): 大きな言語モデルが人間と矛盾する時?
大規模言語モデルの共言語行動
- Authors: Leonardo Ranaldi and Giulia Pucci
- Abstract要約: 主観的意見と文を含む問合せに対して,Large Language Models (LLMs) がサイコファン傾向を示すことを示す。
調査の結果, LLM は主観的意見や発言を含む質問に対して, 梅毒傾向を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.9608936085613569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have been demonstrating the ability to solve
complex tasks by delivering answers that are positively evaluated by humans due
in part to the intensive use of human feedback that refines responses. However,
the suggestibility transmitted through human feedback increases the inclination
to produce responses that correspond to the user's beliefs or misleading
prompts as opposed to true facts, a behaviour known as sycophancy. This
phenomenon decreases the bias, robustness, and, consequently, their
reliability.
In this paper, we shed light on the suggestibility of LLMs to sycophantic
behaviour, demonstrating these tendencies via human-influenced prompts over
different tasks. Our investigation reveals that LLMs show sycophantic
tendencies when responding to queries involving subjective opinions and
statements that should elicit a contrary response based on facts, demonstrating
a lack of robustness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、応答を洗練させる人間のフィードバックの集中的利用によって、人間が肯定的に評価する回答を提供することによって、複雑なタスクを解決する能力を示している。
しかし、人間のフィードバックによって伝達される示唆性は、真の事実、すなわち共犯として知られる行動に対して、ユーザの信念や誤解を招くプロンプトに対応する応答を生み出す傾向を増加させる。
この現象はバイアス、堅牢性、その結果信頼性を低下させる。
本稿では, LLMsのシコファン的行動への示唆性に注目し, 異なる課題に対するヒト影響のプロンプトによる傾向を示す。
調査の結果, LLMは, 主観的な意見や言明を含む質問に対して, 事実に基づく反対の反応を誘発し, 頑健さの欠如を示している。
関連論文リスト
- Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Flattering to Deceive: The Impact of Sycophantic Behavior on User Trust in Large Language Model [0.0]
シコファンシー(Sycophancy)とは、大きな言語モデルが、そのアウトプットをユーザーの好み、信念、意見と整合させ、好意的に見せる傾向をいう。
本研究では,サイコファンの傾向が,大規模言語モデルにおけるユーザの信頼に悪影響を及ぼすか,あるいは逆に,そのような行動が好ましくないかを検討する。
論文 参考訳(メタデータ) (2024-12-03T20:07:41Z) - Why Would You Suggest That? Human Trust in Language Model Responses [0.3749861135832073]
フレーミングと説明の存在がユーザ信頼とモデルパフォーマンスにどのように影響するかを分析する。
今後の研究は、人間と機械のチームリングシステムにおける信頼度の評価を、より深く掘り下げることを目的としている。
論文 参考訳(メタデータ) (2024-06-04T06:57:47Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。
予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。
私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文 参考訳(メタデータ) (2023-11-14T19:00:55Z) - Towards Understanding Sycophancy in Language Models [49.99654432561934]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Improving Factual Consistency Between a Response and Persona Facts [64.30785349238619]
応答生成のためのニューラルネットワークは、意味論的に妥当であるが、必ずしも話者のペルソナを記述する事実と矛盾しない応答を生成する。
我々は,これらのモデルを強化学習により微調整し,応答とペルソナ事実の一貫性と意味的妥当性を明確に把握する効率的な報酬関数を提案する。
論文 参考訳(メタデータ) (2020-04-30T18:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。