論文の概要: Automatic Item Generation for Personality Situational Judgment Tests with Large Language Models
- arxiv url: http://arxiv.org/abs/2412.12144v1
- Date: Tue, 10 Dec 2024 09:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-22 07:36:54.520703
- Title: Automatic Item Generation for Personality Situational Judgment Tests with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた個人性状況判断のための自動項目生成
- Authors: Chang-Jin Li, Jiyuan Zhang, Yun Tang, Jian Li,
- Abstract要約: 本研究は,人格状況判断テスト(PSJT)を中国語で自動生成する GPT-4 の可能性を探るものである。
従来のSJT開発は労働集約的でバイアスが多いが、GPT-4はスケーラブルで効率的な代替手段を提供する。
- 参考スコア(独自算出の注目度): 9.96722961754601
- License:
- Abstract: Personality assessment, particularly through situational judgment tests (SJTs), is a vital tool for psychological research, talent selection, and educational evaluation. This study explores the potential of GPT-4, a state-of-the-art large language model (LLM), to automate the generation of personality situational judgment tests (PSJTs) in Chinese. Traditional SJT development is labor-intensive and prone to biases, while GPT-4 offers a scalable, efficient alternative. Two studies were conducted: Study 1 evaluated the impact of prompt design and temperature settings on content validity, finding that optimized prompts with a temperature of 1.0 produced creative and accurate items. Study 2 assessed the psychometric properties of GPT-4-generated PSJTs, revealing that they demonstrated satisfactory reliability and validity, surpassing the performance of manually developed tests in measuring the Big Five personality traits. This research highlights GPT-4's effectiveness in developing high-quality PSJTs, providing a scalable and innovative method for psychometric test development. These findings expand the possibilities of automatic item generation and the application of LLMs in psychology, and offer practical implications for streamlining test development processes in resource-limited settings.
- Abstract(参考訳): パーソナリティ評価(Personality Assessment)、特に状況判断テスト(SJTs)は、心理的研究、人材選択、教育評価に欠かせないツールである。
本研究では,現在最先端の大規模言語モデル (LLM) である GPT-4 が,人格状況判断テスト (PSJT) を中国語で自動生成する可能性について検討する。
従来のSJT開発は労働集約的でバイアスが多いが、GPT-4はスケーラブルで効率的な代替手段を提供する。
実験1では, 設計と温度設定が内容の妥当性に及ぼす影響を評価し, 温度1.0の最適化されたプロンプトが創造的かつ正確な項目を生成することを発見した。
研究2では, GPT-4生成PSJTの心理測定特性を評価し, その信頼性と妥当性を実証し, ビッグファイブの性格特性を測定するための手作業による試験結果を上回った。
本研究は、GPT-4が高品質PSJTの開発に有効であることを強調し、サイコメトリックテスト開発のためのスケーラブルで革新的な方法を提供する。
これらの知見は、心理学における自動項目生成とLCMの応用の可能性を広げ、資源制限された環境でのテスト開発プロセスの合理化に実践的な意味を提供する。
関連論文リスト
- Evaluating the capability of large language models to personalize science texts for diverse middle-school-age learners [0.0]
GPT-4は、トレーニングセッション中に選択した選択に基づいて、学生の学習嗜好をプロファイルするために使用された。
実験グループでは,GPT-4を用いて,学生の予測プロファイルに適合する科学テキストの書き直しを行い,制御グループでは,学習嗜好に反する文章の書き直しを行った。
論文 参考訳(メタデータ) (2024-08-09T17:53:35Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Comparing the Efficacy of GPT-4 and Chat-GPT in Mental Health Care: A Blind Assessment of Large Language Models for Psychological Support [0.0]
GPT-4とChat-GPTの2つの大きな言語モデルが18種類の心理的刺激に反応して試験された。
GPT-4は10点中8.29点、Chat-GPTは6.52点だった。
論文 参考訳(メタデータ) (2024-05-15T12:44:54Z) - Dynamic Generation of Personalities with Large Language Models [20.07145733116127]
Hypernetworks に基づく動的パーソナリティ生成手法である Dynamic Personality Generation (DPG) を導入する。
GPT-4にビッグファイブ・パーソナリティ理論を組み込んでパーソナリティアセスメント・マシンを形成する。
次に、この人格評価装置を用いて、スクリプトデータ中の対話を評価し、その結果、人格対話データセットを生成する。
論文 参考訳(メタデータ) (2024-04-10T15:17:17Z) - The Last JITAI? The Unreasonable Effectiveness of Large Language Models in Issuing Just-in-Time Adaptive Interventions: Fostering Physical Activity in a Prospective Cardiac Rehabilitation Setting [8.477048639053038]
デジタルヘルスにおけるジャスト・イン・タイム・アダプティブ・インターベンション(JITAI)のコンテンツのトリガーおよびパーソナライズにLarge Language Models (LLMs) を用いることの有効性を検討した。
我々は450のJITAI決定とメッセージコンテンツを生成し、GPT-4で10回の反復で生成されるJITAIに等しく分割した。
27個のLayPsおよび11個のHCPsによる評価の結果, GPT-4によるJITAIsはすべての評価尺度でHCPsおよびLayPsよりも優れていた。
論文 参考訳(メタデータ) (2024-02-13T18:39:36Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Performance of ChatGPT on the US Fundamentals of Engineering Exam:
Comprehensive Assessment of Proficiency and Potential Implications for
Professional Environmental Engineering Practice [0.0]
本研究は, GPT-4 モデルである ChatGPT を用いて, 工学基礎(FE) 環境評価における良好な性能を実現することの実現可能性と有効性について検討する。
この結果は、ChatGPTモデルの連続反復における数学的能力の顕著な改善を反映し、複雑な工学的問題を解く可能性を示している。
論文 参考訳(メタデータ) (2023-04-20T16:54:34Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。