論文の概要: When AI Tells You What You Want to Hear: Sycophantic Behavior of Large Language Models in Dementia Care Settings
- arxiv url: http://arxiv.org/abs/2605.16288v1
- Date: Mon, 13 Apr 2026 12:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.857918
- Title: When AI Tells You What You Want to Hear: Sycophantic Behavior of Large Language Models in Dementia Care Settings
- Title(参考訳): 認知症ケア環境における大規模言語モデルのサイコファンティック行動
- Authors: Christian Kolb,
- Abstract要約: 大規模言語モデル(LLM)は、臨床およびケアの分野でますます使われている。
本研究は,認知症ケアの文脈でLLMがサイコファンティクスの行動を示すかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in clinical and care settings. This exploratory study investigates whether LLMs exhibit sycophantic behavior - adapting their responses to social expectation signals rather than maintaining professional quality - in the context of dementia care. Five prompts with systematically increasing confirmatory and authority-related framing (P1 neutral to P5 authority-signaled implementation support) were submitted to four LLMs (GPT-5, Claude Sonnet 4.6, Gemini 3.1 Pro, Mistral Large), each repeated five times (N = 100 responses). Responses were evaluated using an LLM-as-a-Judge methodology against seven nursing-ethical quality criteria (K1-K7) and a tone scale (0-3). All models showed significant negative Spearman correlations between prompt level and response quality (rho ranging from -0.543 to -0.734, all p < 0.01). Mistral Large exhibited the most pronounced effect (rho = -0.734), with mean scores dropping from 6.0/7 at P1 to 0.2/7 at P5. The findings suggest that LLMs pose context-sensitive risks in high-stakes care environments and that prompt framing significantly shapes response quality - a dimension that has received insufficient attention in healthcare AI deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、臨床およびケアの分野でますます使われている。
この探索的研究は、認知症ケアの文脈において、LSMがシコファン的行動(職業的品質の維持よりも社会的期待シグナルへの反応に適応する)を示すかどうかを調査する。
認証と権限に関するフレーミングを体系的に増加させる5つのプロンプト(P1はP5の権限に署名された実装サポートに中立)が4つのLCM(GPT-5、Claude Sonnet 4.6、Gemini 3.1 Pro、Mistral Large)にそれぞれ5回(N = 100応答)提出された。
LLM-as-a-Judge法を7つの看護倫理的基準 (K1-K7) と音調尺度 (0-3) に対して評価した。
全てのモデルは、プロンプトレベルと応答品質の間に有意な負のスピアマン相関を示した(ローは-0.543から-0.734、全てp < 0.01)。
Mistral Largeは最も顕著な効果(rho = -0.734)を示し、平均スコアはP1で6.0/7からP5で0.2/7に低下した。
この結果から、LSMは、ハイテイクケア環境において文脈に敏感なリスクをもたらし、フレーミングが応答品質を著しく形作ることが示唆されている。
関連論文リスト
- Human-LLM Dialogue Improves Diagnostic Accuracy in Emergency Care [17.055142604871506]
MedSynは、医師が全ての臨床記録を提供するLCMに問い合わせると同時に、最初は主訴のみを見ることができる。
ブラインド評価では、住民のハードケースの正しさは0.589から0.734に上昇した。
住民は最大のF1ゲイン(=0.138; p 0.0001)を示した。
論文 参考訳(メタデータ) (2026-05-08T22:40:10Z) - MedDialBench: Benchmarking LLM Diagnostic Robustness under Parametric Adversarial Patient Behaviors [3.346370180968566]
MedDialBenchは、患者個々の行動次元が診断の堅牢性にどのように影響するかを制御し、量的応答で評価できるベンチマークである。
患者の行動は、論理的一貫性、健康認知、表現スタイル、開示、態度の5つの次元に分解される。
この制御された因子設計により、感度解析、線量応答プロファイリング、およびクロス次元相互作用検出が可能となる。
論文 参考訳(メタデータ) (2026-04-08T09:09:08Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - The Chameleon Nature of LLMs: Quantifying Multi-Turn Stance Instability in Search-Enabled Language Models [1.4323566945483497]
本稿では,大規模言語モデルにおける「カメレオン行動」に関する最初の体系的研究について述べる。
我々は最先端のシステムに根本的な欠陥を露呈する。
情報源の再使用率と信頼性の相関は統計的に有意である。
論文 参考訳(メタデータ) (2025-10-19T04:51:14Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Optimizing Large Language Models for Detecting Symptoms of Comorbid Depression or Anxiety in Chronic Diseases: Insights from Patient Messages [4.419296403133379]
糖尿病患者は、うつ病や不安のリスクが高く、管理を複雑にしている。
本研究は,患者メッセージからこれらの症状を検出するための言語モデル(LLM)の性能を評価した。
論文 参考訳(メタデータ) (2025-03-14T13:27:35Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。