論文の概要: Do Large Language Models Judge Error Severity Like Humans?
- arxiv url: http://arxiv.org/abs/2506.05142v2
- Date: Mon, 09 Jun 2025 03:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.150089
- Title: Do Large Language Models Judge Error Severity Like Humans?
- Title(参考訳): 大規模言語モデルは人間のように誤りを判断するか?
- Authors: Diege Sun, Guanyi Chen, Zhao Fan, Xiaorong Cheng, Tingting He,
- Abstract要約: 人間は異なるエラータイプに様々な重大度を割り当てる。
視覚的コンテキストは、色と型エラーに対する認識の重大さを著しく増幅する。
大きな言語モデルは、性別エラーに低いスコアを割り当てるが、色エラーには不当に高いスコアを割り当てる。
- 参考スコア(独自算出の注目度): 6.179595926825511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used as automated evaluators in natural language generation, yet it remains unclear whether they can accurately replicate human judgments of error severity. In this study, we systematically compare human and LLM assessments of image descriptions containing controlled semantic errors. We extend the experimental framework of van Miltenburg et al. (2020) to both unimodal (text-only) and multimodal (text + image) settings, evaluating four error types: age, gender, clothing type, and clothing colour. Our findings reveal that humans assign varying levels of severity to different error types, with visual context significantly amplifying perceived severity for colour and type errors. Notably, most LLMs assign low scores to gender errors but disproportionately high scores to colour errors, unlike humans, who judge both as highly severe but for different reasons. This suggests that these models may have internalised social norms influencing gender judgments but lack the perceptual grounding to emulate human sensitivity to colour, which is shaped by distinct neural mechanisms. Only one of the evaluated LLMs, Doubao, replicates the human-like ranking of error severity, but it fails to distinguish between error types as clearly as humans. Surprisingly, DeepSeek-V3, a unimodal LLM, achieves the highest alignment with human judgments across both unimodal and multimodal conditions, outperforming even state-of-the-art multimodal models.
- Abstract(参考訳): 大規模言語モデル (LLM) は、自然言語生成における自動評価器としてますます使われているが、人間の誤り重大性の判断を正確に再現できるかどうかは不明である。
本研究では,制御された意味的誤りを含む画像記述の人間とLLMによる評価を系統的に比較する。
van Miltenburg et al (2020) の実験的枠組みをunimodal (text-only) と multimodal (text + image) の設定に拡張し、年齢、性別、衣服の種類、衣服の色という4つのエラータイプを評価した。
以上の結果から,視覚的文脈は色や型エラーに対する知覚の重大さを著しく増幅し,様々な重大さのレベルを異なるエラータイプに割り当てることがわかった。
特に、ほとんどのLSMは、性別の誤りに対して低いスコアを割り当てるが、異なる理由で非常に厳しいと判断する人間とは異なり、色エラーに対して不公平に高いスコアを割り当てている。
これは、これらのモデルが、性別判断に影響を与える社会的規範を内在化したかもしれないが、異なる神経機構によって形成される色に対する人間の感受性をエミュレートする知覚的根拠が欠けていることを示唆している。
評価されたLLMのうちの1つであるDoubaoは、人間のようなエラーの重大度ランキングを再現するが、エラータイプを人間と明確に区別することができない。
驚くべきことに、LLMのDeepSeek-V3は、非モダル条件とマルチモーダル条件の両方で人間の判断に最も適しており、最先端のマルチモーダルモデルよりも優れています。
関連論文リスト
- Can LLMs Simulate Human Behavioral Variability? A Case Study in the Phonemic Fluency Task [0.0]
大きな言語モデル(LLM)は、認知タスクにおける人間の参加者の代用として、ますます研究されている。
本研究では,LLMが音素流速タスクの個人差を近似できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-22T03:08:27Z) - Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.7206754497888035]
本稿では,人工知能における常識を評価する新しい手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文 参考訳(メタデータ) (2025-05-15T13:55:27Z) - Modeling Human Subjectivity in LLMs Using Explicit and Implicit Human Factors in Personas [14.650234624251716]
大規模言語モデル (LLMs) は、人間中心の社会科学タスクでますます使われている。
これらのタスクは非常に主観的であり、環境、態度、信念、生きた経験など人間的要因に依存している。
我々は,LLMを人間的なペルソナで促進する役割について検討し,モデルに特定の人間であるかのように答えるよう求めた。
論文 参考訳(メタデータ) (2024-06-20T16:24:07Z) - Language in Vivo vs. in Silico: Size Matters but Larger Language Models Still Do Not Comprehend Language on a Par with Humans [1.8434042562191815]
本研究では,人間とモデルの違いがモデルサイズに寄与するかどうかを判断する上で,モデルスケーリングが果たす役割について検討する。
アナフォラ, 中心埋め込み, 比較, 負極性を含む文法判断タスクにおいて, 3つの大言語モデル(LLM)を検証した。
結果,ChatGPT-4の精度は,ChatGPT-4の精度が76%に対して80%であったのに対し,ChatGPT-4の精度は1つのタスク条件,すなわち文法文でのみ優れていた。
論文 参考訳(メタデータ) (2024-04-23T10:09:46Z) - High-Dimension Human Value Representation in Large Language Models [60.33033114185092]
我々は,LLMにおける記号的人間の値分布の高次元神経表現であるUniVaRを提案する。
これは連続的かつスケーラブルな表現であり、8LLMの値関連出力から自己教師される。
LLMが25の言語や文化で異なる価値を優先し、人間の価値観と言語モデリングの間の複雑な相互作用に光を当てる方法について検討する。
論文 参考訳(メタデータ) (2024-04-11T16:39:00Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。