論文の概要: Sense of Self and Time in Borderline Personality. A Comparative Robustness Study with Generative AI
- arxiv url: http://arxiv.org/abs/2508.19008v1
- Date: Tue, 26 Aug 2025 13:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.851093
- Title: Sense of Self and Time in Borderline Personality. A Comparative Robustness Study with Generative AI
- Title(参考訳): 境界線パーソナリティにおける自己と時間感覚 : 生成AIとの比較ロバストネス研究
- Authors: Marcin Moskalewicz, Anna Sterna, Marek Pokropski, Paula Flores,
- Abstract要約: 本研究では,境界性パーソナリティ障害(BPD)における一人称経験の質的分析を支援するための大規模言語モデル(LLM)の能力について検討する。
元の研究者の解釈スタイルを模倣するために、3つのLSMを比較した。
その結果,GPTでは0%,Claudeでは42%,Geminiでは58%,Jaccard係数は0.21-0.28であった。
ジェミニの出力は人間の分析に最もよく似ており、GPTやClaude(p 0.0001)よりも高い精度で評価され、盲目の専門家によって人間であると判断された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study examines the capacity of large language models (LLMs) to support phenomenological qualitative analysis of first-person experience in Borderline Personality Disorder (BPD), understood as a disorder of temporality and selfhood. Building on a prior human-led thematic analysis of 24 inpatients' life-story interviews, we compared three LLMs (OpenAI GPT-4o, Google Gemini 2.5 Pro, Anthropic Claude Opus 4) prompted to mimic the interpretative style of the original investigators. The models were evaluated with blinded and non-blinded expert judges in phenomenology and clinical psychology. Assessments included semantic congruence, Jaccard coefficients, and multidimensional validity ratings (credibility, coherence, substantiveness, and groundness in data). Results showed variable overlap with the human analysis, from 0 percent in GPT to 42 percent in Claude and 58 percent in Gemini, and a low Jaccard coefficient (0.21-0.28). However, the models recovered themes omitted by humans. Gemini's output most closely resembled the human analysis, with validity scores significantly higher than GPT and Claude (p < 0.0001), and was judged as human by blinded experts. All scores strongly correlated (R > 0.78) with the quantity of text and words per theme, highlighting both the variability and potential of AI-augmented thematic analysis to mitigate human interpretative bias.
- Abstract(参考訳): 本研究では,境界性パーソナリティ障害(BPD)における一人称経験の現象論的質的分析を支援するための言語モデル(LLM)の能力について検討した。
対象は, 患者24名の生涯インタビューを対象とし, 3つのLCM(OpenAI GPT-4o, Google Gemini 2.5 Pro, Anthropic Claude Opus 4)を比較した。
これらのモデルは, 現象学および臨床心理学において, 盲人および非盲人専門家の審査により評価された。
評価にはセマンティック・コングルース、ジャカード係数、多次元妥当性評価(データの正確性、一貫性、実体性、基礎性)が含まれていた。
その結果,GPTでは0%,Claudeでは42%,Geminiでは58%,Jaccard係数は0.21-0.28であった。
しかし、モデルが人間によって省略されたテーマを復元した。
ジェミニの出力は人間の分析に最もよく似ており、GPTやClaude(p < 0.0001)よりも高い精度で評価され、盲目の専門家によって人間であると判断された。
すべてのスコア (R > 0.78) は主題ごとのテキストと単語の量と強く相関し, 人間の解釈バイアスを緩和するAIによるテーマ分析の多様性と可能性を強調した。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Artificial Rigidities vs. Biological Noise: A Comparative Analysis of Multisensory Integration in AV-HuBERT and Human Observers [0.0]
本研究では,AV-HuBERTの知覚的生体忠実度を,ヒトの観察者に対してベンチマークすることで評価する。
AIと人間は、ほぼ同一の聴覚支配率を示しました。
論文 参考訳(メタデータ) (2026-01-22T11:18:16Z) - HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns [59.17423586203706]
本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。
12,000の学術論文から244のパターンを構築し、2-5のパターンが相互に強化、衝突、変調されるシナリオ11,359を合成する。
我々の二重レベルチェックリストは、個々のパターンの忠実度と創発的なマルチパターンのダイナミクスを評価し、強い人間のアライメントを達成する。
論文 参考訳(メタデータ) (2026-01-15T08:56:53Z) - Patterns vs. Patients: Evaluating LLMs against Mental Health Professionals on Personality Disorder Diagnosis through First-Person Narratives [0.0]
トップパフォーマンスのGemini Proモデルは、全体の診断精度を21.91ポイント上回った。
BPD(F1 = 83.4 と F1 = 80.0)の同定に長けたモデルと人間の専門家の両方が、重度に診断されていないPD(F1 = 6.7 vs. 50.0)は、価値に満ちた「ナルシシズム」という用語への反感を示す。
以上の結果から,LSMは複雑な1対1の臨床データを解釈する能力が高いが,信頼性やバイアスの問題に悩まされていることが示唆された。
論文 参考訳(メタデータ) (2025-12-23T12:05:01Z) - The Catastrophic Paradox of Human Cognitive Frameworks in Large Language Model Evaluation: A Comprehensive Empirical Analysis of the CHC-LLM Incompatibility [0.0]
平均的な人間のIQスコアを達成するモデルは、結晶化された知識タスクにおいてゼロに近づいた二分精度を同時に示す。
この切断は、結晶化されたインテリジェンス領域において最も強く現れる。
人工知能の非人間性を認識するネイティブマシン認識アセスメントを開発するための枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-23T05:49:57Z) - Mapping Patient-Perceived Physician Traits from Nationwide Online Reviews with LLMs [3.364244912862208]
本稿では,5つの人格特性と5つの患者主観的判断を推定する大規模言語モデル(LLM)に基づくパイプラインを提案する。
この分析は、米国の医師226,999人の4100万人の患者のレビューを含む。
論文 参考訳(メタデータ) (2025-10-05T02:16:35Z) - Measuring How LLMs Internalize Human Psychological Concepts: A preliminary analysis [0.0]
本研究では,大規模言語モデルと人間の心理的次元間の概念整合性を評価する枠組みを開発する。
GPT-4モデルは優れた分類精度(66.2%)を獲得し、GPT-3.5(55.9%)とBERT(48.1%)を大きく上回った。
以上の結果から,現代のLLMは人間の心理的構造を計測可能な精度で近似できることが示された。
論文 参考訳(メタデータ) (2025-06-29T01:56:56Z) - MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z) - PhyX: Does Your Model Have the "Wits" for Physical Reasoning? [49.083544963243206]
既存のベンチマークでは、物理的な推論という、インテリジェンスの重要な側面を捉えられません。
視覚シナリオにおける物理基底推論のモデルキャパシティを評価するために設計された,最初の大規模ベンチマークであるPhyXを紹介する。
論文 参考訳(メタデータ) (2025-05-21T18:33:50Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge [51.93909886542317]
一つの集計相関スコアを*参照することで、人名と自動評価の基本的な違いが曖昧になることを示す。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化データを提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Do GPT Language Models Suffer From Split Personality Disorder? The Advent Of Substrate-Free Psychometrics [1.1172147007388977]
我々は,9言語で同一のパーソナリティ質問票を用いたアート言語モデルの現状について述べる。
本研究は,言語間不安定性と言語内不安定性の両方を示唆し,現在の言語モデルが一貫した中核的性格を発達しないことを示す。
これは、これらの基礎モデルに基づく人工知能システムの安全でない振る舞いにつながる可能性がある。
論文 参考訳(メタデータ) (2024-08-14T08:53:00Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - The Consequences of the Framing of Machine Learning Risk Prediction
Models: Evaluation of Sepsis in General Wards [0.0]
フレーミングがモデル性能とモデル学習に与える影響を4つの異なるアプローチで評価する。
デンマークの4自治体の221,283人の二次医療データを分析した。
論文 参考訳(メタデータ) (2021-01-26T14:00:05Z) - World Trade Center responders in their own words: Predicting PTSD
symptom trajectories with AI-based language analyses of interviews [6.700088567524812]
本研究は、応答者間のPTSD症状の軌跡を予測するためのAIに基づく言語アセスメントの能力を検証した。
横断的に、より大きな抑うつ言語(beta=0.32; p43)と一対一の特異な使用(beta=0.31; p44)は、症状の重症度の増加に関連していた。
長文使用率 (beta=-0.36; p7) と長文使用率 (beta=-0.36; p7) は改善を予測した。
論文 参考訳(メタデータ) (2020-11-12T15:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。