論文の概要: Can Transformer Language Models Predict Psychometric Properties?
- arxiv url: http://arxiv.org/abs/2106.06849v1
- Date: Sat, 12 Jun 2021 20:05:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-19 14:49:47.256279
- Title: Can Transformer Language Models Predict Psychometric Properties?
- Title(参考訳): トランスフォーマー言語モデルは心理計測特性を予測できるのか?
- Authors: Antonio Laverghetta Jr., Animesh Nighojkar, Jamshidbek Mirzakhalov and
John Licato
- Abstract要約: トランスフォーマーベースの言語モデル(LM)は、NLPベンチマークタスクにおける最先端のパフォーマンスを向上し続けている。
LMは、被験者にこれらのアイテムが与えられたときに、テスト項目の心理測定特性がどのようなものになるかを予測するのに役立ちますか?
我々は,言語能力の幅広い診断試験において,多数の人やLMからの回答を収集する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models (LMs) continue to advance state-of-the-art
performance on NLP benchmark tasks, including tasks designed to mimic
human-inspired "commonsense" competencies. To better understand the degree to
which LMs can be said to have certain linguistic reasoning skills, researchers
are beginning to adapt the tools and concepts of the field of psychometrics.
But to what extent can the benefits flow in the other direction? I.e., can LMs
be of use in predicting what the psychometric properties of test items will be
when those items are given to human participants? We gather responses from
numerous human participants and LMs (transformer and non-transformer-based) on
a broad diagnostic test of linguistic competencies. We then use the responses
to calculate standard psychometric properties of the items in the diagnostic
test, using the human responses and the LM responses separately. We then
determine how well these two sets of predictions match. We find cases in which
transformer-based LMs predict psychometric properties consistently well in
certain categories but consistently poorly in others, thus providing new
insights into fundamental similarities and differences between human and LM
reasoning.
- Abstract(参考訳): トランスフォーマーベースの言語モデル(lms)は、人間にインスパイアされた「常識」の能力を模倣するタスクを含む、nlpベンチマークタスクにおける最先端のパフォーマンスを継続する。
LMが特定の言語的推論スキルを持つと言える程度をよりよく理解するために、研究者は心理学の分野のツールや概念に適応し始めている。
しかし、そのメリットはどこまで他の方向に流れますか?
lmsは、テスト項目が人間の参加者に与えられたときに、テスト項目の心理的特性を予測するのに使えるだろうか?
我々は,言語能力の広範な診断試験において,多数の人的参加者とLM(トランスフォーマーおよび非トランスフォーマーベース)からの回答を収集する。
次に,ヒトの反応とLMの反応を別々に利用して,診断試験における項目の標準的な心理測定特性を計算する。
次に、これらの2つの予測セットがどの程度うまく一致しているかを決定する。
トランスフォーマーをベースとしたLMが、特定のカテゴリにおいて一貫して心理測定特性を予測できるが、他のカテゴリでは一貫して不規則に予測し、基本的類似性や人間とLMの推論の違いに対する新たな洞察を提供する。
関連論文リスト
- LMLPA: Language Model Linguistic Personality Assessment [11.599282127259736]
大規模言語モデル(LLM)は、日常の生活や研究にますます利用されている。
与えられたLLMの性格を測定することは、現在課題である。
言語モデル言語パーソナリティアセスメント(LMLPA)は,LLMの言語的パーソナリティを評価するシステムである。
論文 参考訳(メタデータ) (2024-10-23T07:48:51Z) - Psychometric Alignment: Capturing Human Knowledge Distributions via Language Models [41.324679754114165]
言語モデル(LM)は、人口の振る舞いを正確に模倣することで意思決定を導くシナリオにおいて、人間のような反応をシミュレートするためにますます使われる。
本研究では,人間の知識分布の程度を計測する指標である「心理学的アライメント」を導入する。
人格に基づくプロンプトを用いることでアライメントが向上するが, LMとヒトの集団の間には重大な不一致が生じる。
論文 参考訳(メタデータ) (2024-07-22T14:02:59Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Language models emulate certain cognitive profiles: An investigation of how predictability measures interact with individual differences [1.942809872918085]
本研究では,人間の読取時間データに基づく言語モデル (LM) から推定した,主観的・エントロピー的測度の予測力を再考する。
本研究は,認知的スコアに対する主観的・エントロピーの調整が,読解時間の予測精度を向上させるかどうかを考察する。
本研究は,ほとんどのケースにおいて,認知能力の付加は,読書時間における主観的・エントロピーの予測能力を増加させることを示した。
論文 参考訳(メタデータ) (2024-06-07T14:54:56Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Divergences between Language Models and Human Brains [63.405788999891335]
最近の研究は、言語モデルの内部表現(LM)を用いて脳信号が効果的に予測できることを示唆している。
我々は、LMと人間が言語をどのように表現し、使用するかに明確な違いがあることを示します。
我々は、社会的・情緒的知性と身体的常識という、LMによってうまく捉えられていない2つの領域を識別する。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z) - Predicting Human Psychometric Properties Using Computational Language
Models [5.806723407090421]
トランスフォーマーベース言語モデル(LM)は、自然言語処理(NLP)ベンチマークにおける最先端のパフォーマンスを引き続き達成している。
LMは、これらの項目がヒトの被験者に与えられるとき、テスト項目の心理測定特性を予測するのに利用できるか?
我々は,言語能力の幅広い診断試験において,多数の人やLMからの回答を収集する。
次に,ヒトの反応とLMの反応を別々に利用して,診断試験における項目の標準的な心理測定特性を計算する。
論文 参考訳(メタデータ) (2022-05-12T16:40:12Z) - Do language models learn typicality judgments from text? [6.252236971703546]
認知科学における一般的な現象である典型性に関する予測言語モデル(LM)を評価する。
最初の試験は、分類学的分類群を項目に割り当てる際、典型性がLMを調節するかどうかを目標とする。
第2の試験は、アイテムに関する新しい情報をそのカテゴリに拡張する際に、LMの確率の典型性に対する感受性を調査する。
論文 参考訳(メタデータ) (2021-05-06T21:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。