論文の概要: The Linguistic Architecture of Reflective Thought: Evaluation of a Large Language Model as a Tool to Isolate the Formal Structure of Mentalization
- arxiv url: http://arxiv.org/abs/2512.08945v1
- Date: Thu, 20 Nov 2025 23:51:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.557221
- Title: The Linguistic Architecture of Reflective Thought: Evaluation of a Large Language Model as a Tool to Isolate the Formal Structure of Mentalization
- Title(参考訳): 反省的思考の言語的アーキテクチャ:メンタル化の形式的構造を分離するツールとしての大規模言語モデルの評価
- Authors: Stefano Epifani, Giuliano Castigliego, Laura Kecskemeti, Giuliano Razzicchia, Elisabeth Seiwald-Sonderegger,
- Abstract要約: メンタライゼーションは認知的、感情的、他者間のコンポーネントを統合する。
大きな言語モデル(LLM)は、反射テキストを生成する能力の増大を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Background: Mentalization integrates cognitive, affective, and intersubjective components. Large Language Models (LLMs) display an increasing ability to generate reflective texts, raising questions regarding the relationship between linguistic form and mental representation. This study assesses the extent to which a single LLM can reproduce the linguistic structure of mentalization according to the parameters of Mentalization-Based Treatment (MBT). Methods: Fifty dialogues were generated between human participants and an LLM configured in standard mode. Five psychiatrists trained in MBT, working under blinded conditions, evaluated the mentalization profiles produced by the model along the four MBT axes, assigning Likert-scale scores for evaluative coherence, argumentative coherence, and global quality. Inter-rater agreement was estimated using ICC(3,1). Results: Mean scores (3.63-3.98) and moderate standard deviations indicate a high level of structural coherence in the generated profiles. ICC values (0.60-0.84) show substantial-to-high agreement among raters. The model proved more stable in the Implicit-Explicit and Self-Other dimensions, while presenting limitations in the integration of internal states and external contexts. The profiles were coherent and clinically interpretable yet characterized by affective neutrality.
- Abstract(参考訳): 背景: メンタライゼーションは認知的、感情的、他者間のコンポーネントを統合する。
大規模言語モデル(LLM)は、言語形式と精神的表現の関係に関する疑問を提起し、反射的テキストを生成する能力の増大を示す。
本研究は、単一のLSMが、メンタル化ベースの治療(MBT)のパラメータに従って、メンタル化の言語構造を再現できる範囲を評価する。
方法: 標準モードで設定したLLMとヒトの対話を50回生成した。
MBTで訓練を受けた5人の精神科医は、4つのMBT軸に沿ってモデルによって生成されたメンタライゼーションプロファイルを評価し、評価的コヒーレンス、議論的コヒーレンス、グローバルな品質について、Quat-scaleスコアを割り当てた。
ICC(3,1。
結果:平均スコア(3.63-3.98)と中程度の標準偏差は、生成されたプロファイルにおける高い構造的コヒーレンスを示す。
ICC値 (0.60-0.84) はラッカー間で実質的に高い一致を示した。
このモデルはインプリシット・エクスプリシットとセルフ・オア・ディメンションにおいてより安定であり、内部状態と外部コンテキストの統合の制限を提示した。
プロファイルはコヒーレントで臨床的に解釈可能であるが, 感情的中立性が特徴である。
関連論文リスト
- I Am Aligned, But With Whom? MENA Values Benchmark for Evaluating Cultural Alignment and Multilingual Bias in LLMs [5.060243371992739]
大規模言語モデル(LLM)の文化的アライメントと多言語バイアスを評価するための新しいベンチマークであるMENAValuesを紹介する。
大規模で権威ある人的調査から、我々は16カ国の人口レベルの応答分布を持つMENAの社会文化的景観を捉えた構造化データセットをキュレートした。
分析の結果,同じ質問が言語に基づいて大きく異なる反応をもたらす「クロス・Lingual Value Shifts」,その理由の説明を促す「Reasoning-induced Degradation」,モデルがセンシティブな質問を拒否する「Logit Leakage」,内部確率が強く隠蔽される「Logit Leakage」の3つの重要な現象が明らかになった。
論文 参考訳(メタデータ) (2025-10-15T05:10:57Z) - Analyzing Latent Concepts in Code Language Models [10.214183897113118]
グローバルなポストホック解釈可能性フレームワークであるコード概念分析(CoCoA)を提案する。
CoCoAは、コード言語モデルの表現空間における創発的語彙、構文、意味構造を明らかにする。
本稿では,静的解析ツールをベースとした構文アライメントと,プロンプトエンジニアリングによる大規模言語モデルを組み合わせたハイブリッドアノテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-01T03:53:21Z) - Does Language Model Understand Language? [1.0450509067356148]
自然言語の生成と理解の進歩にもかかわらず、LMは依然として粒度の細かい言語現象に苦慮している。
本研究では,英語とベンガル語の両方の難解な文脈において,SOTA言語モデルの評価を行う。
その結果,最もバランスの取れたモデルとして,多種多様な言語条件における高い相関と低いMAEを一貫して達成していることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-15T21:09:09Z) - Measuring How LLMs Internalize Human Psychological Concepts: A preliminary analysis [0.0]
本研究では,大規模言語モデルと人間の心理的次元間の概念整合性を評価する枠組みを開発する。
GPT-4モデルは優れた分類精度(66.2%)を獲得し、GPT-3.5(55.9%)とBERT(48.1%)を大きく上回った。
以上の結果から,現代のLLMは人間の心理的構造を計測可能な精度で近似できることが示された。
論文 参考訳(メタデータ) (2025-06-29T01:56:56Z) - Comparing Human Expertise and Large Language Models Embeddings in Content Validity Assessment of Personality Tests [0.0]
本研究では,大規模言語モデル(LLM)の心理測定器の内容妥当性評価への応用について検討する。
人間の専門的評価と高度なLCMの両方を用いて,意味的項目・構成的アライメントの精度を比較した。
その結果、人間とAIのアプローチの強みと限界が明らかになりました。
論文 参考訳(メタデータ) (2025-03-15T10:54:35Z) - Large Language Models as Neurolinguistic Subjects: Discrepancy between Performance and Competence [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。