論文の概要: Can GPT replace human raters? Validity and reliability of machine-generated norms for metaphors
- arxiv url: http://arxiv.org/abs/2512.12444v1
- Date: Sat, 13 Dec 2025 19:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.263836
- Title: Can GPT replace human raters? Validity and reliability of machine-generated norms for metaphors
- Title(参考訳): GPTは人間のラッカーを置き換えることができるか? メタファーのための機械生成規範の妥当性と信頼性
- Authors: Veronica Mangiaterra, Hamad Al-Azary, Chiara Barattieri di San Pietro, Paolo Canal, Valentina Bambini,
- Abstract要約: 本稿では,メタファー評価の妥当性と信頼性について,親しみやすさ,理解性,イメージ可能性に関する最初の評価を行った。
その結果,機械による評価は人為的評価と正の相関が認められた。
我々は、GPT、特に大きなモデルにおいて、評価メタファー特性において人間の被験者を有効かつ確実に置き換えることができると結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) are increasingly being used in scientific research, the issue of their trustworthiness becomes crucial. In psycholinguistics, LLMs have been recently employed in automatically augmenting human-rated datasets, with promising results obtained by generating ratings for single words. Yet, performance for ratings of complex items, i.e., metaphors, is still unexplored. Here, we present the first assessment of the validity and reliability of ratings of metaphors on familiarity, comprehensibility, and imageability, generated by three GPT models for a total of 687 items gathered from the Italian Figurative Archive and three English studies. We performed a thorough validation in terms of both alignment with human data and ability to predict behavioral and electrophysiological responses. We found that machine-generated ratings positively correlated with human-generated ones. Familiarity ratings reached moderate-to-strong correlations for both English and Italian metaphors, although correlations weakened for metaphors with high sensorimotor load. Imageability showed moderate correlations in English and moderate-to-strong in Italian. Comprehensibility for English metaphors exhibited the strongest correlations. Overall, larger models outperformed smaller ones and greater human-model misalignment emerged with familiarity and imageability. Machine-generated ratings significantly predicted response times and the EEG amplitude, with a strength comparable to human ratings. Moreover, GPT ratings obtained across independent sessions were highly stable. We conclude that GPT, especially larger models, can validly and reliably replace - or augment - human subjects in rating metaphor properties. Yet, LLMs align worse with humans when dealing with conventionality and multimodal aspects of metaphorical meaning, calling for careful consideration of the nature of stimuli.
- Abstract(参考訳): 大規模言語モデル(LLM)が科学研究にますます使われているため、信頼性の問題が重要になっている。
心理言語学において、LLMは、最近、人間の評価データセットを自動的に増強するために採用され、単一の単語のレーティングを生成して、有望な結果を得た。
しかし、複雑な項目の格付け、すなわちメタファーのパフォーマンスはまだ解明されていない。
本稿では,イタリア図書アーカイブと3つの英語研究から収集した計687項目について,3つのGPTモデルを用いて,親しみやすさ,理解性,イメージ性に関するメタファーの評価の妥当性と信頼性を初めて評価した。
人間のデータとの整合性と行動・電気生理学的反応の予測能力の両面で徹底的な検証を行った。
その結果,機械による評価は人為的評価と正の相関が認められた。
親密性評価は英語とイタリア語の両方のメタファーに対して中~強相関に達したが、高官能負荷のメタファーでは相関が弱まった。
可視性はイタリア語では英語と中等音の相関がみられた。
英語のメタファーの理解度は最も強い相関関係を示した。
全体として、より大型のモデルはより小型のモデルよりも優れ、より大型のヒューマンモデルのミスアライメントは、親しみとイメージ性によって出現した。
機械による評価は、人間の評価に匹敵する強度で、反応時間と脳波振幅を有意に予測した。
さらに,独立したセッション間で得られたGPT評価は非常に安定していた。
我々は、GPT、特に大きなモデルにおいて、評価メタファー特性において人間の被験者を有効かつ確実に置き換えることができると結論付けている。
しかし、LLMは比喩的意味の慣習的側面や多義的側面を扱う際に人間に悪影響を及ぼし、刺激の性質を慎重に考慮するよう呼びかける。
関連論文リスト
- Bridging Human and Model Perspectives: A Comparative Analysis of Political Bias Detection in News Media Using Large Language Models [0.3227658251731014]
本研究では,人間のアノテーションと複数の言語モデルによる政治的偏見の検出を評価するための比較枠組みを提案する。
我々は,手動でアノテートしたニュース記事のデータセットを構築し,アノテート一貫性,バイアス極性,モデル間合意を評価する。
実験の結果,従来のトランスフォーマーベースモデルでは,RoBERTaが最も高いアライメントを達成していることがわかった。
論文 参考訳(メタデータ) (2025-11-18T15:58:04Z) - Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.212429064310439]
本稿では,人工知能における常識評価手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文 参考訳(メタデータ) (2025-05-15T13:55:27Z) - Exploring Multimodal Perception in Large Language Models Through Perceptual Strength Ratings [3.681659715077039]
本研究では,マルチモーダルな大規模言語モデルが人間の感覚的接地を達成できるかどうかについて検討した。
我々はLancaster Sensorimotor Normsの3,611語を用いて,4家系の21のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-10T06:52:35Z) - Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Supervised Learning and Large Language Model Benchmarks on Mental Health Datasets: Cognitive Distortions and Suicidal Risks in Chinese Social Media [23.49883142003182]
中国のソーシャルメディアから,自殺リスク分類のためのSOS-HL-1Kと,認知歪み検出のためのSocialCD-3Kの2つの新しいデータセットを紹介した。
本稿では,2つの教師付き学習手法と8つの大規模言語モデル(LLM)を用いた総合的な評価を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:50:46Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。