Fugu-MT 論文翻訳(概要): Comparing Human Expertise and Large Language Models Embeddings in Content Validity Assessment of Personality Tests

論文の概要: Comparing Human Expertise and Large Language Models Embeddings in Content Validity Assessment of Personality Tests

arxiv url: http://arxiv.org/abs/2503.12080v1
Date: Sat, 15 Mar 2025 10:54:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.706705
Title: Comparing Human Expertise and Large Language Models Embeddings in Content Validity Assessment of Personality Tests
Title（参考訳）: 個人性テストの内容妥当性評価における人間専門家と大規模言語モデルの比較
Authors: Nicola Milano, Michela Ponticorvo, Davide Marocco,
Abstract要約: 本研究では,大規模言語モデル(LLM)の心理測定器の内容妥当性評価への応用について検討する。人間の専門的評価と高度なLCMの両方を用いて,意味的項目・構成的アライメントの精度を比較した。その結果、人間とAIのアプローチの強みと限界が明らかになりました。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this article we explore the application of Large Language Models (LLMs) in assessing the content validity of psychometric instruments, focusing on the Big Five Questionnaire (BFQ) and Big Five Inventory (BFI). Content validity, a cornerstone of test construction, ensures that psychological measures adequately cover their intended constructs. Using both human expert evaluations and advanced LLMs, we compared the accuracy of semantic item-construct alignment. Graduate psychology students employed the Content Validity Ratio (CVR) to rate test items, forming the human baseline. In parallel, state-of-the-art LLMs, including multilingual and fine-tuned models, analyzed item embeddings to predict construct mappings. The results reveal distinct strengths and limitations of human and AI approaches. Human validators excelled in aligning the behaviorally rich BFQ items, while LLMs performed better with the linguistically concise BFI items. Training strategies significantly influenced LLM performance, with models tailored for lexical relationships outperforming general-purpose LLMs. Here we highlights the complementary potential of hybrid validation systems that integrate human expertise and AI precision. The findings underscore the transformative role of LLMs in psychological assessment, paving the way for scalable, objective, and robust test development methodologies.
Abstract（参考訳）: 本稿では,BFQ(Big Five Questionnaire)とBFI(Big Five Inventory)に焦点をあて,心理測定器の内容妥当性を評価するためのLarge Language Models(LLMs)の適用について検討する。コンテンツ妥当性は、テスト構築の基盤であり、心理的な措置が意図した構成を適切にカバーすることを保証する。人間の専門的評価と高度なLCMの両方を用いて,意味的項目・構成的アライメントの精度を比較した。大学院心理学生は、テスト項目の評価にCVR(Content Validity Ratio)を使用して、人間のベースラインを形成した。並行して、多言語モデルや微調整モデルを含む最先端のLCMは、アイテムの埋め込みを分析して構造写像を予測する。その結果、人間とAIのアプローチの強みと限界が明らかになりました。人間のバリケータは行動に富んだBFQ項目の整列に優れ、LLMは言語学的に簡潔なBFI項目の整列に優れていた。トレーニング戦略はLLMのパフォーマンスに大きく影響を与え、汎用LLMより優れた語彙関係に適したモデルが作られた。ここでは、人間の専門知識とAIの精度を統合するハイブリッド検証システムの補完的な可能性を強調します。この知見は、心理学的評価におけるLLMの変革的役割を浮き彫りにし、スケーラブルで客観的で堅牢なテスト開発方法論への道を開いた。

関連論文リスト

Ensemble Bayesian Inference: Leveraging Small Language Models to Achieve LLM-level Accuracy in Profile Matching Tasks [0.0]
本研究では,プロプライエタリな大規模言語モデル (LLM) に匹敵する精度を実現するため,小型言語モデル (SLM) アンサンブルの可能性を検討する。本稿では,複数のSLMから判断を合成するためにベイズ推定を適用した新しい手法として,EBI(Ensemble Bayesian Inference)を提案する。
論文参考訳（メタデータ） (2025-04-24T15:55:10Z)
Evaluating book summaries from internal knowledge in Large Language Models: a cross-model and semantic consistency approach [0.0]
本研究では,大規模言語モデル(LLM)を用いて,包括的かつ正確な書籍要約を生成する能力について検討する。これらのモデルが、確立された人間の解釈と一致した有意義な物語を合成できるかどうかを検討する。
論文参考訳（メタデータ） (2025-03-27T15:36:24Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
LMLPA: Language Model Linguistic Personality Assessment [11.599282127259736]
大規模言語モデル(LLM)は、日常の生活や研究にますます利用されている。与えられたLLMの性格を測定することは、現在課題である。言語モデル言語パーソナリティアセスメント(LMLPA)は,LLMの言語的パーソナリティを評価するシステムである。
論文参考訳（メタデータ） (2024-10-23T07:48:51Z)
Think Together and Work Better: Combining Humans' and LLMs' Think-Aloud Outcomes for Effective Text Evaluation [2.5398014196797605]
本研究では,人間の専門知識とLarge Language Models(LLM)を統合するフレームワークであるtextbfInteractEvalを紹介する。このフレームワークはThink-Aloud(TA)メソッドを使用して、チェックリストベースのテキスト評価の属性を生成する。
論文参考訳（メタデータ） (2024-09-11T15:40:07Z)
From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。 LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文参考訳（メタデータ） (2024-08-09T20:35:10Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。本調査では,これらのアライメント技術の概要について概観する。
論文参考訳（メタデータ） (2023-07-24T17:44:58Z)
Personality Traits in Large Language Models [42.31355340867784]
コミュニケーションの有効性を決定する重要な要因は人格である。本稿では,広く使用されている大規模言語モデル上でのパーソナリティテストの管理と検証のための,新しい,包括的・包括的心理学的・信頼性の高い方法論を提案する。本稿では,計測・形成手法の適用と倫理的意味,特に責任あるAIについて論じる。
論文参考訳（メタデータ） (2023-07-01T00:58:51Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。