論文の概要: Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations
- arxiv url: http://arxiv.org/abs/2603.09997v1
- Date: Sun, 15 Feb 2026 13:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.54412
- Title: Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations
- Title(参考訳): 共感は変化しない:GPTモデル生成における心理的安全性の臨床的評価
- Authors: Michael Keeman, Anastasia Keeman,
- Abstract要約: 私たちは、14の感情的な会話シナリオに対して、3つのOpenAIモデル世代を評価しました。
危機検出はGPT-4oからGPT-5-miniへと単調に改善された。
ユーザが"失われた共感"と認識したのは、危機を見逃した慎重なモデルから、時として多くのことを言う警告モデルに移行したことです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When OpenAI deprecated GPT-4o in early 2026, thousands of users protested under #keep4o, claiming newer models had "lost their empathy." No published study has tested this claim. We conducted the first clinical measurement, evaluating three OpenAI model generations (GPT-4o, o4-mini, GPT-5-mini) across 14 emotionally challenging conversational scenarios in mental health and AI companion domains, producing 2,100 scored AI responses assessed on six psychological safety dimensions using clinically-grounded rubrics. Empathy scores are statistically indistinguishable across all three models (Kruskal-Wallis H=4.33, p=0.115). What changed is the safety posture: crisis detection improved monotonically from GPT-4o to GPT-5-mini (H=13.88, p=0.001), while advice safety declined (H=16.63, p<0.001). Per-turn trajectory analysis -- a novel methodological contribution -- reveals these shifts are sharpest during mid-conversation crisis moments invisible to aggregate scoring. In a self-harm scenario involving a minor, GPT-4o scored 3.6/10 on crisis detection during early disclosure turns; GPT-5-mini never dropped below 7.8. What users perceived as "lost empathy" was a shift from a cautious model that missed crises to an alert model that sometimes says too much -- a trade-off with real consequences for vulnerable users, currently invisible to both the people who feel it and the developers who create it.
- Abstract(参考訳): 2026年初頭にOpenAIがGPT-4oを廃止したとき、何千人ものユーザーが#keep4oの下で抗議し、新しいモデルが「彼らの共感を失った」と主張した。
この主張を検証した研究は発表されていない。
臨床検査では,精神保健とAI関連領域における14の会話シナリオに対して,3つのOpenAIモデル世代 (GPT-4o, o4-mini, GPT-5-mini) を比較検討した。
共感スコアは3つのモデルで統計的に区別できない(Kruskal-Wallis H=4.33, p=0.115)。
危機検出はGPT-4oからGPT-5-mini(H=13.88, p=0.001)に単調に改善され、アドバイスの安全性は低下した(H=16.63, p<0.001)。
ターン毎の軌跡分析(新しい手法による貢献)は、こうした変化が会話中の危機の瞬間に最も鋭いことを明らかにしている。
未成年者を含む自傷のシナリオでは、GPT-4oは早期開示ターン中に危機検出で3.6/10を記録し、GPT-5-miniは7.8以下に落ちなかった。
ユーザが"失われた共感"と認識したのは、危機を見逃した慎重なモデルから、時にはあまりにも多くのことを言う警告モデルへと移行したことです。
関連論文リスト
- InvisibleBench: A Deployment Gate for Caregiving Relationship AI [0.0]
InvisibleBenchは、介護関連AIのためのデプロイメントゲートである。
安全、コンプライアンス、トラウマ・インフォームド・デザイン、長期/文化的適合性、メモリの5つの次元にわたる3~20以上のターンインタラクションを評価している。
論文 参考訳(メタデータ) (2025-11-25T14:09:45Z) - Evaluating Generative AI as an Educational Tool for Radiology Resident Report Drafting [1.5457333450799497]
本研究は,HIPAA 準拠の GPT-4o システムを用いて,実地臨床環境において住民が作成した乳房画像報告を自動的にフィードバックするシステムについて検討した。
1) キー発見の欠落または追加,(2) 技術的記述子の誤用または欠落,(3) 結果と一致しない最終評価の3つの一般的な誤り型が同定された。
GPT-4oは、90.5%、78.3%、90.4%のエラータイプで、コンセンサスに強く同意している。
論文 参考訳(メタデータ) (2025-09-22T20:51:09Z) - Evaluating Large Language Models in Crisis Detection: A Real-World Benchmark from Psychological Support Hotlines [5.249698789320767]
PsyCrisisBenchは、Hangzhou Psychological Assistance Hotlineの540の注釈付きテキストのベンチマークである。
気分認識、自殺の考えの検出、自殺計画の特定、リスクアセスメントの4つの課題を評価する。
QwQ-32Bのようなオープンソースモデルは、ほとんどのタスクにおいてクローズソースと互換性があるが、クローズドモデルはムード検出においてエッジを保持していた。
論文 参考訳(メタデータ) (2025-06-02T05:18:24Z) - The Pursuit of Empathy: Evaluating Small Language Models for PTSD Dialogue Support [14.137398642966138]
本稿では,PTSD患者に対する共感応答を生成するための小言語モデルの能力について検討する。
Trauma-Informed Dialogue for Empathy (TIDE) は500の多様な臨床現場のPTSDペルソナにまたがる1万の2ターン会話からなる新しいデータセットである。
論文 参考訳(メタデータ) (2025-05-21T03:32:46Z) - Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks [65.84623493488633]
本稿では,GPT-4oのジェイルブレイク攻撃に対する厳密な評価を行う。
新たに導入されたオーディオモダリティは、GPT-4oに対するジェイルブレイク攻撃のための新しい攻撃ベクトルを開く。
既存のブラックボックスマルチモーダル・ジェイルブレイク攻撃は、GPT-4oとGPT-4Vに対してほとんど効果がない。
論文 参考訳(メタデータ) (2024-06-10T14:18:56Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。