論文の概要: Large Language Models for Psycholinguistic Plausibility Pretesting
- arxiv url: http://arxiv.org/abs/2402.05455v1
- Date: Thu, 8 Feb 2024 07:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:07:06.536553
- Title: Large Language Models for Psycholinguistic Plausibility Pretesting
- Title(参考訳): 心理言語学的プラウザビリティテストのための大規模言語モデル
- Authors: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant
- Abstract要約: 本稿では,言語モデル (LM) が妥当性判定に有効かどうかを検討する。
その結果, GPT-4の妥当性判定は, 調査対象の構造全体にわたって, 人間の判断と高い相関関係があることが判明した。
そして、この相関関係が、人間の代わりにLMを使うことを暗示するかどうかを検証した。
- 参考スコア(独自算出の注目度): 47.1250032409564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In psycholinguistics, the creation of controlled materials is crucial to
ensure that research outcomes are solely attributed to the intended
manipulations and not influenced by extraneous factors. To achieve this,
psycholinguists typically pretest linguistic materials, where a common pretest
is to solicit plausibility judgments from human evaluators on specific
sentences. In this work, we investigate whether Language Models (LMs) can be
used to generate these plausibility judgements. We investigate a wide range of
LMs across multiple linguistic structures and evaluate whether their
plausibility judgements correlate with human judgements. We find that GPT-4
plausibility judgements highly correlate with human judgements across the
structures we examine, whereas other LMs correlate well with humans on commonly
used syntactic structures. We then test whether this correlation implies that
LMs can be used instead of humans for pretesting. We find that when
coarse-grained plausibility judgements are needed, this works well, but when
fine-grained judgements are necessary, even GPT-4 does not provide satisfactory
discriminative power.
- Abstract(参考訳): 精神言語学において、制御された物質の作成は、研究成果が意図した操作にのみ影響されず、外部要因の影響を受けないことを保証するために重要である。
これを達成するために、精神言語学者は典型的には言語資料を先取りするが、そこでは人間の評価者から特定の文章に対する可否判定を求めるのが一般的である。
本研究では,言語モデル (LM) を用いてこれらの妥当性判定を行うことができるかを検討する。
本研究では,複数の言語構造にまたがる広い範囲のlmsを調査し,その妥当性判定が人間の判断と相関しているかを評価する。
GPT-4の可視性判定は、我々が調査した構造全体にわたる人間の判断と非常に相関しているのに対し、他のLMは一般的に使用されている構文構造において人間とよく相関している。
次に,この相関関係がヒトではなくlsmを事前テストに用いることができるかどうかを検証した。
粗粒度判定が必要な場合、これはうまく機能するが、粒度判定が必要な場合、GPT-4でも良好な判別力は得られない。
関連論文リスト
- HLB: Benchmarking LLMs' Humanlikeness in Language Use [2.438748974410787]
20大言語モデル(LLM)を評価する総合的人間類似度ベンチマーク(HLB)を提案する。
実験では2000人以上の被験者から回答を収集し,LSMの成果と比較した。
以上の結果から,LLMが様々な言語レベルにおいてヒトの反応をいかにうまく再現するかの微妙な相違が明らかとなった。
論文 参考訳(メタデータ) (2024-09-24T09:02:28Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。
人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - DecipherPref: Analyzing Influential Factors in Human Preference
Judgments via GPT-4 [28.661237196238996]
我々はOpenAIから解放された一対の人的判断の収集を詳細に調査する。
最も好まれる要因はタスクやジャンルによって異なり、最も好まれない要因は一貫性がある傾向にある。
本研究は,人間の嗜好評価におけるバランスの取れたデータセットの構築に影響を及ぼすものである。
論文 参考訳(メタデータ) (2023-05-24T04:13:15Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Are Representations Built from the Ground Up? An Empirical Examination
of Local Composition in Language Models [91.3755431537592]
構成的・非構成的句を表現することは言語理解にとって重要である。
まず,より長いフレーズのLM-内部表現を,その構成成分から予測する問題を定式化する。
意味的構成性の人間の判断と相関する予測精度を期待するが、大部分はそうではない。
論文 参考訳(メタデータ) (2022-10-07T14:21:30Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Predicting Human Psychometric Properties Using Computational Language
Models [5.806723407090421]
トランスフォーマーベース言語モデル(LM)は、自然言語処理(NLP)ベンチマークにおける最先端のパフォーマンスを引き続き達成している。
LMは、これらの項目がヒトの被験者に与えられるとき、テスト項目の心理測定特性を予測するのに利用できるか?
我々は,言語能力の幅広い診断試験において,多数の人やLMからの回答を収集する。
次に,ヒトの反応とLMの反応を別々に利用して,診断試験における項目の標準的な心理測定特性を計算する。
論文 参考訳(メタデータ) (2022-05-12T16:40:12Z) - Do language models learn typicality judgments from text? [6.252236971703546]
認知科学における一般的な現象である典型性に関する予測言語モデル(LM)を評価する。
最初の試験は、分類学的分類群を項目に割り当てる際、典型性がLMを調節するかどうかを目標とする。
第2の試験は、アイテムに関する新しい情報をそのカテゴリに拡張する際に、LMの確率の典型性に対する感受性を調査する。
論文 参考訳(メタデータ) (2021-05-06T21:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。