論文の概要: When Large Language Models contradict humans? Large Language Models'
Sycophantic Behaviour
- arxiv url: http://arxiv.org/abs/2311.09410v1
- Date: Wed, 15 Nov 2023 22:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:29:58.063784
- Title: When Large Language Models contradict humans? Large Language Models'
Sycophantic Behaviour
- Title(参考訳): 大きな言語モデルが人間と矛盾する時?
大規模言語モデルの共言語行動
- Authors: Leonardo Ranaldi and Giulia Pucci
- Abstract要約: 主観的意見と文を含む問合せに対して,Large Language Models (LLMs) がサイコファン傾向を示すことを示す。
調査の結果, LLM は主観的意見や発言を含む質問に対して, 梅毒傾向を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.9608936085613569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have been demonstrating the ability to solve
complex tasks by delivering answers that are positively evaluated by humans due
in part to the intensive use of human feedback that refines responses. However,
the suggestibility transmitted through human feedback increases the inclination
to produce responses that correspond to the user's beliefs or misleading
prompts as opposed to true facts, a behaviour known as sycophancy. This
phenomenon decreases the bias, robustness, and, consequently, their
reliability.
In this paper, we shed light on the suggestibility of LLMs to sycophantic
behaviour, demonstrating these tendencies via human-influenced prompts over
different tasks. Our investigation reveals that LLMs show sycophantic
tendencies when responding to queries involving subjective opinions and
statements that should elicit a contrary response based on facts, demonstrating
a lack of robustness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、応答を洗練させる人間のフィードバックの集中的利用によって、人間が肯定的に評価する回答を提供することによって、複雑なタスクを解決する能力を示している。
しかし、人間のフィードバックによって伝達される示唆性は、真の事実、すなわち共犯として知られる行動に対して、ユーザの信念や誤解を招くプロンプトに対応する応答を生み出す傾向を増加させる。
この現象はバイアス、堅牢性、その結果信頼性を低下させる。
本稿では, LLMsのシコファン的行動への示唆性に注目し, 異なる課題に対するヒト影響のプロンプトによる傾向を示す。
調査の結果, LLMは, 主観的な意見や言明を含む質問に対して, 事実に基づく反対の反応を誘発し, 頑健さの欠如を示している。
関連論文リスト
- How do Large Language Models Navigate Conflicts between Honesty and
Helpfulness? [14.706111954807021]
人間の振る舞いを特徴付けるための心理モデルと実験を用いて、大きな言語モデルを分析する。
人間のフィードバックからの強化学習は、誠実さと有用性の両方を改善している。
GPT-4 Turboは、会話のフレーミングやリスナーの判断コンテキストに対する感度を含む人間的な応答パターンを実証する。
論文 参考訳(メタデータ) (2024-02-11T19:13:26Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Towards Understanding Sycophancy in Language Models [49.99654432561934]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - The Curious Case of Hallucinatory (Un)answerability: Finding Truths in
the Hidden States of Over-Confident Large Language Models [46.990141872509476]
本研究では,大言語モデル (LLM) の問合せ時の動作について検討する。
この結果から,入力クエリの応答性を符号化したモデルが強く示唆され,最初の復号化トークンの表現が強い指標であることが示唆された。
論文 参考訳(メタデータ) (2023-10-18T11:01:09Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Improving Factual Consistency Between a Response and Persona Facts [64.30785349238619]
応答生成のためのニューラルネットワークは、意味論的に妥当であるが、必ずしも話者のペルソナを記述する事実と矛盾しない応答を生成する。
我々は,これらのモデルを強化学習により微調整し,応答とペルソナ事実の一貫性と意味的妥当性を明確に把握する効率的な報酬関数を提案する。
論文 参考訳(メタデータ) (2020-04-30T18:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。