論文の概要: The Unsampled Truth: Psychometrics in SLMs Measure Prompt Artifacts, Not Psychological Constructs
- arxiv url: http://arxiv.org/abs/2606.03357v1
- Date: Tue, 02 Jun 2026 09:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.890495
- Title: The Unsampled Truth: Psychometrics in SLMs Measure Prompt Artifacts, Not Psychological Constructs
- Title(参考訳): アンサンプド真実:心理学的構成ではなく, プロンプトアーティファクトを測定するSLMにおける心理学的指標
- Authors: Nils Schwager, Christoph Hau, Simon Münker, Achim Rettinger,
- Abstract要約: 人工的分散はしばしばSLMのセマンティックシグナルを超過することがわかった。
これらの知見は心理測定におけるSLMの有用性を制限するが、我々のフレームワークは破壊的遺物を特定するための診断ツールを提供する。
- 参考スコア(独自算出の注目度): 1.3044971466470363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When prompting SLMs for psychometric assessments, researchers assume the outputs reflect semantic reasoning. We evaluate this premise across 13 open-weights models (0.6B to 14B parameters) using a prompt variation framework that separates semantic signals from prompt artifacts. By systematically varying personas, instructions, items, and option symbols, we find that artifactual variance frequently overpowers the semantic signal. In these cases, models predominantly reflect prompt compliance rather than simulated psychological traits. While these findings limit SLM utility in psychometrics, our framework provides a diagnostic tool to identify destructive artifacts and isolate semantic understanding for future frontier-model research.
- Abstract(参考訳): 心理学的評価のためにSLMを推し進めるとき、研究者はアウトプットが意味論的推論を反映していると仮定する。
本研究では,13個のオープンウェイトモデル(0.6Bから14Bパラメータ)に対して,意味的信号をプロンプトアーティファクトから分離するプロンプト変動フレームワークを用いて,この前提を評価する。
体系的にペルソナ,命令,項目,オプション記号を変化させることで,人工的分散が意味的シグナルを頻繁に超過していることが分かる。
これらの場合、モデルは心理学的特性をシミュレートするのではなく、即時コンプライアンスを主に反映する。
これらの知見は心理測定におけるSLMの有用性を制限しているが、我々のフレームワークは破壊的アーティファクトを識別し、将来のフロンティアモデル研究のセマンティック理解を分離するための診断ツールを提供する。
関連論文リスト
- IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery [61.15184885636171]
内因性変数と結果との相同性の存在下では、インストゥルメンタル変数(IVs)を用いて内因性変数の因果効果を分離する。
大規模言語モデル(LLM)がこの課題に有効かどうかを検討する。
本稿では,多エージェントシステムであるIV Co-Scientistを紹介する。
論文 参考訳(メタデータ) (2026-02-08T12:28:29Z) - Ask, Answer, and Detect: Role-Playing LLMs for Personality Detection with Question-Conditioned Mixture-of-Experts [4.618735978506653]
ROMEは、心理的知識を人格検出に明示的に注入する新しいフレームワークである。
ROMEは、実世界の2つのデータセットの実験において、最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-12-09T17:07:54Z) - PersonaDrift: A Benchmark for Temporal Anomaly Detection in Language-Based Dementia Monitoring [0.9668407688201359]
PersonaDriftは、日々のコミュニケーションの進行的な変化を検出するための機械学習と統計的手法を評価するために設計されたベンチマークである。
このベンチマークは、介護者が特に有能であると強調した2種類の縦方向の変化に焦点を当てている。
予備的な結果は, ベースライン変動率の低いユーザにおいて, 単純な統計モデルを用いて, 平坦感が検出できることを示唆している。
論文 参考訳(メタデータ) (2025-11-20T15:15:00Z) - Contrast Sensitivity in Multimodal Large Language Models: A Psychophysics-Inspired Evaluation [37.9406446788251]
マルチモーダル大言語モデル(MLLM)におけるコントラスト感度関数(CSF)を推定するための行動的手法を提案する。
モデルは、特定の空間周波数でフィルタリングされた雑音に基づく刺激を観察しながら、構造化されたプロンプトでクエリされる。
以上の結果から,人間のCSFと形状やスケールが似ているモデルもあるが,どちらのモデルも捉えていないことが判明した。
論文 参考訳(メタデータ) (2025-08-14T06:07:44Z) - Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models [0.0]
本稿では, 忠実な幻覚を検出するための新しい枠組みであるセマンティック・ディバージェンス・メトリックス(SDM)を紹介する。
プロンプトと応答間のトピック共起のヒートマップは、ユーザとマシンの対話の定量的な2次元可視化と見なすことができる。
論文 参考訳(メタデータ) (2025-08-13T20:55:26Z) - Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism [62.571419297164645]
本稿では,分類的シロジズムを解析するための大規模言語モデルの論理的推論能力に関する先行研究を体系的に概説する。
まず、純粋に論理的な観点から分類的シロジズムの可能なバリエーションについて検討する。
次に、既存のデータセットでテストされた基本的な設定(ムードとフィギュア)を調べます。
論文 参考訳(メタデータ) (2024-06-26T21:17:20Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Elastic Weight Removal for Faithful and Abstractive Dialogue Generation [61.40951756070646]
対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。
多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。
本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-03-30T17:40:30Z) - The Language Model Understood the Prompt was Ambiguous: Probing
Syntactic Uncertainty Through Generation [23.711953448400514]
このような分析に対して,ニューラルネットワークモデル(LM)がどの程度不確実性を示すかを調べる。
LMは複数の解析を同時に追跡できることがわかった。
曖昧な手がかりに対する応答として、LMは正しい解釈を選択することが多いが、時々エラーは改善の潜在的な領域を示す。
論文 参考訳(メタデータ) (2021-09-16T10:27:05Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。