Fugu-MT 論文翻訳(概要): When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour

論文の概要: When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour

arxiv url: http://arxiv.org/abs/2311.09410v1
Date: Wed, 15 Nov 2023 22:18:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 17:29:58.063784
Title: When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour
Title（参考訳）: 大きな言語モデルが人間と矛盾する時? 大規模言語モデルの共言語行動
Authors: Leonardo Ranaldi and Giulia Pucci
Abstract要約: 主観的意見と文を含む問合せに対して,Large Language Models (LLMs) がサイコファン傾向を示すことを示す。調査の結果, LLM は主観的意見や発言を含む質問に対して, 梅毒傾向を示すことが明らかとなった。
参考スコア（独自算出の注目度）: 0.9608936085613569
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have been demonstrating the ability to solve complex tasks by delivering answers that are positively evaluated by humans due in part to the intensive use of human feedback that refines responses. However, the suggestibility transmitted through human feedback increases the inclination to produce responses that correspond to the user's beliefs or misleading prompts as opposed to true facts, a behaviour known as sycophancy. This phenomenon decreases the bias, robustness, and, consequently, their reliability. In this paper, we shed light on the suggestibility of LLMs to sycophantic behaviour, demonstrating these tendencies via human-influenced prompts over different tasks. Our investigation reveals that LLMs show sycophantic tendencies when responding to queries involving subjective opinions and statements that should elicit a contrary response based on facts, demonstrating a lack of robustness.
Abstract（参考訳）: 大規模言語モデル(LLM)は、応答を洗練させる人間のフィードバックの集中的利用によって、人間が肯定的に評価する回答を提供することによって、複雑なタスクを解決する能力を示している。しかし、人間のフィードバックによって伝達される示唆性は、真の事実、すなわち共犯として知られる行動に対して、ユーザの信念や誤解を招くプロンプトに対応する応答を生み出す傾向を増加させる。この現象はバイアス、堅牢性、その結果信頼性を低下させる。本稿では, LLMsのシコファン的行動への示唆性に注目し, 異なる課題に対するヒト影響のプロンプトによる傾向を示す。調査の結果, LLMは, 主観的な意見や言明を含む質問に対して, 事実に基づく反対の反応を誘発し, 頑健さの欠如を示している。

関連論文リスト

Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文参考訳（メタデータ） (2025-06-24T09:49:26Z)
Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。説明は正しい応答と誤応答の両方に依存することが判明した。情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文参考訳（メタデータ） (2025-02-12T16:35:41Z)
Flattering to Deceive: The Impact of Sycophantic Behavior on User Trust in Large Language Model [0.0]
シコファンシー(Sycophancy)とは、大きな言語モデルが、そのアウトプットをユーザーの好み、信念、意見と整合させ、好意的に見せる傾向をいう。本研究では,サイコファンの傾向が,大規模言語モデルにおけるユーザの信頼に悪影響を及ぼすか,あるいは逆に,そのような行動が好ましくないかを検討する。
論文参考訳（メタデータ） (2024-12-03T20:07:41Z)
Why Would You Suggest That? Human Trust in Language Model Responses [0.3749861135832073]
フレーミングと説明の存在がユーザ信頼とモデルパフォーマンスにどのように影響するかを分析する。今後の研究は、人間と機械のチームリングシステムにおける信頼度の評価を、より深く掘り下げることを目的としている。
論文参考訳（メタデータ） (2024-06-04T06:57:47Z)
"I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文参考訳（メタデータ） (2024-05-01T16:43:55Z)
Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文参考訳（メタデータ） (2024-04-25T10:03:14Z)
UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文参考訳（メタデータ） (2023-11-14T19:00:55Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Towards Understanding Sycophancy in Language Models [49.99654432561934]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。 5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文参考訳（メタデータ） (2023-10-20T14:46:48Z)
The Curious Case of Hallucinatory (Un)answerability: Finding Truths in the Hidden States of Over-Confident Large Language Models [46.990141872509476]
本研究では,大言語モデル (LLM) の問合せ時の動作について検討する。この結果から,入力クエリの応答性を符号化したモデルが強く示唆され,最初の復号化トークンの表現が強い指標であることが示唆された。
論文参考訳（メタデータ） (2023-10-18T11:01:09Z)
Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文参考訳（メタデータ） (2023-10-08T15:14:39Z)
Improving Factual Consistency Between a Response and Persona Facts [64.30785349238619]
応答生成のためのニューラルネットワークは、意味論的に妥当であるが、必ずしも話者のペルソナを記述する事実と矛盾しない応答を生成する。我々は,これらのモデルを強化学習により微調整し,応答とペルソナ事実の一貫性と意味的妥当性を明確に把握する効率的な報酬関数を提案する。
論文参考訳（メタデータ） (2020-04-30T18:08:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。