論文の概要: Psychometric Comparability of LLM-Based Digital Twins
- arxiv url: http://arxiv.org/abs/2601.14264v1
- Date: Mon, 22 Dec 2025 18:04:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.813642
- Title: Psychometric Comparability of LLM-Based Digital Twins
- Title(参考訳): LLMを用いたディジタル双生児の心理的比較
- Authors: Yufei Zhang, Zhihao Ma,
- Abstract要約: 私たちは、モデル、タスク、個人固有の入力がどのようにパフォーマンスを形作るかをテストするために、人間のゴールド標準に対してデジタルツインをベンチマークします。
研究全体では、デジタル双生児は高い人口レベルの精度と、参加者内プロファイルの強い相関を達成した。
ディジタル双生児はバイアスを過小評価し、規範的予測、圧縮分散、時間的情報に対する感度の制限を示す。
- 参考スコア(独自算出の注目度): 2.7740826124350355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are used as "digital twins" to replace human respondents, yet their psychometric comparability to humans is uncertain. We propose a construct-validity framework spanning construct representation and the nomological net, benchmarking digital twins against human gold standards across models, tasks and testing how person-specific inputs shape performance. Across studies, digital twins achieved high population-level accuracy and strong within-participant profile correlations, alongside attenuated item-level correlations. In word association tests, LLM-based networks show small-world structure and theory-consistent communities similar to humans, yet diverge lexically and in local structure. In decision-making and contextualized tasks, digital twins under-reproduce heuristic biases, showing normative rationality, compressed variance and limited sensitivity to temporal information. Feature-rich digital twins improve Big Five Personality prediction, but their personality networks show only configural invariance and do not achieve metric invariance. In more applied free-text tasks, feature-rich digital twins better match human narratives, but linguistic differences persist. Together, these results indicate that feature-rich conditioning enhances validity but does not resolve systematic divergences in psychometric comparability. Future work should therefore prioritize delineating the effective boundaries of digital twins, establishing the precise contexts in which they function as reliable proxies for human cognition and behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の答えを置き換えるために「デジタル双生児」として使用されるが、人間の心理学的適合性は不確実である。
本研究では,構成表現とノモロジカルネットにまたがる構成妥当性フレームワークを提案する。
研究全体では、デジタル双生児は個体レベルの精度が高く、参加者内プロファイルの相関が強く、アイテムレベルの相関も弱められた。
ワードアソシエーションテストでは、LLMベースのネットワークは、人間に似た小さな世界構造と理論に一貫性のあるコミュニティを示すが、語彙的にも局所構造でもばらばらである。
意思決定や文脈化されたタスクにおいて、ディジタルツインは、規範的合理性、圧縮された分散、時間的情報に対する感度の制限を示す、ヒューリスティックバイアスを過度に再現する。
特徴豊富なデジタル双生児は、ビッグファイブパーソナリティの予測を改善するが、その人格ネットワークは構成的不変性のみを示し、計量的不変性は達成しない。
より適用された自由テキストタスクでは、機能豊富なデジタルツインは人間の物語にマッチするが、言語的な違いは持続する。
これらの結果から,機能豊富な条件付けは妥当性を高めるが,精神測定の可視性において系統的な相違を解消するものではないことが示唆された。
今後の研究は、デジタル双生児の効果的な境界線を優先し、人間の認知と行動のための信頼できるプロキシとして機能する正確なコンテキストを確立するべきである。
関連論文リスト
- Computational Turing Test Reveals Systematic Differences Between Human and AI Language [0.0]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするために社会科学でますます使われている。
既存の検証努力は人的判断に基づく評価に大きく依存している。
本稿では,LLMが人間の言語にどの程度近いかを評価するために,計算チューリングテストを提案する。
論文 参考訳(メタデータ) (2025-11-06T08:56:37Z) - From Five Dimensions to Many: Large Language Models as Precise and Interpretable Psychological Profilers [14.983442449498739]
本研究は,人間の心理特性の相関構造を,最小の量的入力からモデル化できるかどうかについて検討する。
我々は816人の個人から、他の9つの心理的尺度でのロールプレイを行うために、ビッグファイブ・パーソナリティ・スケールの反応を持つ様々なLSMを誘導した。
LLMは人間の心理的構造を捉えるのに顕著な精度を示した。
論文 参考訳(メタデータ) (2025-11-05T06:51:13Z) - TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation [55.55404595177229]
大型言語モデル(LLM)は、人間のような能力を示す。
TwinVoiceは、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-10-29T14:00:42Z) - A Mega-Study of Digital Twins Reveals Strengths, Weaknesses and Opportunities for Further Improvement [3.418816254588274]
個人(デジタル双子)のデジタル表現は、社会科学と意思決定を変革することを約束する。
我々は,米国代表パネルとそのデジタル双生児を対象に,19個の研究を行った。
双子は75%の精度で個々の反応を再現し、人間の答えとの相関は低かった。
論文 参考訳(メタデータ) (2025-09-23T14:42:14Z) - From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [63.25540801694765]
大きな言語モデル (LLMs) は言語能力を示すが、同じバランスをとれるかどうかは不明だ。
本稿では,LLMと人間を定量的に比較するために,Information Bottleneckの原理を適用した。
論文 参考訳(メタデータ) (2025-05-21T16:29:00Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - Digital Twins: State of the Art Theory and Practice, Challenges, and
Open Research Questions [62.67593386796497]
この研究は、様々なDT機能と現在のアプローチ、デジタルツインの実装と導入の遅れの背景にある欠点と理由を探求する。
この遅延の主な理由は、普遍的な参照フレームワークの欠如、ドメイン依存、共有データのセキュリティ上の懸念、デジタルツインの他の技術への依存、定量的メトリクスの欠如である。
論文 参考訳(メタデータ) (2020-11-02T19:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。