論文の概要: Sense of Self and Time in Borderline Personality. A Comparative Robustness Study with Generative AI
- arxiv url: http://arxiv.org/abs/2508.19008v1
- Date: Tue, 26 Aug 2025 13:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.851093
- Title: Sense of Self and Time in Borderline Personality. A Comparative Robustness Study with Generative AI
- Title(参考訳): 境界線パーソナリティにおける自己と時間感覚 : 生成AIとの比較ロバストネス研究
- Authors: Marcin Moskalewicz, Anna Sterna, Marek Pokropski, Paula Flores,
- Abstract要約: 本研究では,境界性パーソナリティ障害(BPD)における一人称経験の質的分析を支援するための大規模言語モデル(LLM)の能力について検討する。
元の研究者の解釈スタイルを模倣するために、3つのLSMを比較した。
その結果,GPTでは0%,Claudeでは42%,Geminiでは58%,Jaccard係数は0.21-0.28であった。
ジェミニの出力は人間の分析に最もよく似ており、GPTやClaude(p 0.0001)よりも高い精度で評価され、盲目の専門家によって人間であると判断された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study examines the capacity of large language models (LLMs) to support phenomenological qualitative analysis of first-person experience in Borderline Personality Disorder (BPD), understood as a disorder of temporality and selfhood. Building on a prior human-led thematic analysis of 24 inpatients' life-story interviews, we compared three LLMs (OpenAI GPT-4o, Google Gemini 2.5 Pro, Anthropic Claude Opus 4) prompted to mimic the interpretative style of the original investigators. The models were evaluated with blinded and non-blinded expert judges in phenomenology and clinical psychology. Assessments included semantic congruence, Jaccard coefficients, and multidimensional validity ratings (credibility, coherence, substantiveness, and groundness in data). Results showed variable overlap with the human analysis, from 0 percent in GPT to 42 percent in Claude and 58 percent in Gemini, and a low Jaccard coefficient (0.21-0.28). However, the models recovered themes omitted by humans. Gemini's output most closely resembled the human analysis, with validity scores significantly higher than GPT and Claude (p < 0.0001), and was judged as human by blinded experts. All scores strongly correlated (R > 0.78) with the quantity of text and words per theme, highlighting both the variability and potential of AI-augmented thematic analysis to mitigate human interpretative bias.
- Abstract(参考訳): 本研究では,境界性パーソナリティ障害(BPD)における一人称経験の現象論的質的分析を支援するための言語モデル(LLM)の能力について検討した。
対象は, 患者24名の生涯インタビューを対象とし, 3つのLCM(OpenAI GPT-4o, Google Gemini 2.5 Pro, Anthropic Claude Opus 4)を比較した。
これらのモデルは, 現象学および臨床心理学において, 盲人および非盲人専門家の審査により評価された。
評価にはセマンティック・コングルース、ジャカード係数、多次元妥当性評価(データの正確性、一貫性、実体性、基礎性)が含まれていた。
その結果,GPTでは0%,Claudeでは42%,Geminiでは58%,Jaccard係数は0.21-0.28であった。
しかし、モデルが人間によって省略されたテーマを復元した。
ジェミニの出力は人間の分析に最もよく似ており、GPTやClaude(p < 0.0001)よりも高い精度で評価され、盲目の専門家によって人間であると判断された。
すべてのスコア (R > 0.78) は主題ごとのテキストと単語の量と強く相関し, 人間の解釈バイアスを緩和するAIによるテーマ分析の多様性と可能性を強調した。
関連論文リスト
- Measuring How LLMs Internalize Human Psychological Concepts: A preliminary analysis [0.0]
本研究では,大規模言語モデルと人間の心理的次元間の概念整合性を評価する枠組みを開発する。
GPT-4モデルは優れた分類精度(66.2%)を獲得し、GPT-3.5(55.9%)とBERT(48.1%)を大きく上回った。
以上の結果から,現代のLLMは人間の心理的構造を計測可能な精度で近似できることが示された。
論文 参考訳(メタデータ) (2025-06-29T01:56:56Z) - PhyX: Does Your Model Have the "Wits" for Physical Reasoning? [49.083544963243206]
既存のベンチマークでは、物理的な推論という、インテリジェンスの重要な側面を捉えられません。
視覚シナリオにおける物理基底推論のモデルキャパシティを評価するために設計された,最初の大規模ベンチマークであるPhyXを紹介する。
論文 参考訳(メタデータ) (2025-05-21T18:33:50Z) - Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge [51.93909886542317]
一つの集計相関スコアを*参照することで、人名と自動評価の基本的な違いが曖昧になることを示す。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化データを提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Do GPT Language Models Suffer From Split Personality Disorder? The Advent Of Substrate-Free Psychometrics [1.1172147007388977]
我々は,9言語で同一のパーソナリティ質問票を用いたアート言語モデルの現状について述べる。
本研究は,言語間不安定性と言語内不安定性の両方を示唆し,現在の言語モデルが一貫した中核的性格を発達しないことを示す。
これは、これらの基礎モデルに基づく人工知能システムの安全でない振る舞いにつながる可能性がある。
論文 参考訳(メタデータ) (2024-08-14T08:53:00Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - The Consequences of the Framing of Machine Learning Risk Prediction
Models: Evaluation of Sepsis in General Wards [0.0]
フレーミングがモデル性能とモデル学習に与える影響を4つの異なるアプローチで評価する。
デンマークの4自治体の221,283人の二次医療データを分析した。
論文 参考訳(メタデータ) (2021-01-26T14:00:05Z) - World Trade Center responders in their own words: Predicting PTSD
symptom trajectories with AI-based language analyses of interviews [6.700088567524812]
本研究は、応答者間のPTSD症状の軌跡を予測するためのAIに基づく言語アセスメントの能力を検証した。
横断的に、より大きな抑うつ言語(beta=0.32; p43)と一対一の特異な使用(beta=0.31; p44)は、症状の重症度の増加に関連していた。
長文使用率 (beta=-0.36; p7) と長文使用率 (beta=-0.36; p7) は改善を予測した。
論文 参考訳(メタデータ) (2020-11-12T15:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。