論文の概要: Comparison of Scoring Rationales Between Large Language Models and Human Raters
- arxiv url: http://arxiv.org/abs/2509.23412v1
- Date: Sat, 27 Sep 2025 16:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.213291
- Title: Comparison of Scoring Rationales Between Large Language Models and Human Raters
- Title(参考訳): 大規模言語モデルとヒューマンレーダのスコーリング合理化の比較
- Authors: Haowei Hua, Hong Jiao, Dan Song,
- Abstract要約: 本研究では,評価の不整合性の原因を明らかにするために,人間とLLMラッカーの理性について検討した。
大規模試験から得られたエッセイを用いて, GPT-4o, Geminiおよびその他のLLMの評価精度を検討した。
コサイン類似性は、与えられた有理量の類似性を評価するために用いられる。
- 参考スコア(独自算出の注目度): 3.4283859937936705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in automated scoring are closely aligned with advances in machine-learning and natural-language-processing techniques. With recent progress in large language models (LLMs), the use of ChatGPT, Gemini, Claude, and other generative-AI chatbots for automated scoring has been explored. Given their strong reasoning capabilities, LLMs can also produce rationales to support the scores they assign. Thus, evaluating the rationales provided by both human and LLM raters can help improve the understanding of the reasoning that each type of rater applies when assigning a score. This study investigates the rationales of human and LLM raters to identify potential causes of scoring inconsistency. Using essays from a large-scale test, the scoring accuracy of GPT-4o, Gemini, and other LLMs is examined based on quadratic weighted kappa and normalized mutual information. Cosine similarity is used to evaluate the similarity of the rationales provided. In addition, clustering patterns in rationales are explored using principal component analysis based on the embeddings of the rationales. The findings of this study provide insights into the accuracy and ``thinking'' of LLMs in automated scoring, helping to improve the understanding of the rationales behind both human scoring and LLM-based automated scoring.
- Abstract(参考訳): 自動スコアリングの進歩は、機械学習と自然言語処理技術の進歩と密接に一致している。
近年の大規模言語モデル(LLM)の発展に伴い、ChatGPT、Gemini、Claudeなどの生成AIチャットボットによる自動スコアリングが検討されている。
強い推論能力を考えると、LLMは割り当てたスコアをサポートする合理性も生み出すことができる。
したがって、人間とLLMのレーダが提示する合理性を評価することは、スコアを割り当てる際、各タイプのレーダが適用する推論の理解を改善するのに役立つ。
本研究では,評価の不整合性の原因を明らかにするために,人間とLLMラッカーの理性について検討した。
大規模実験から得られたエッセイを用いて, 2次重み付きカッパと正規化相互情報に基づいて, GPT-4o, Gemini, その他のLCMのスコアリング精度を検討した。
コサイン類似性は、与えられた有理量の類似性を評価するために用いられる。
さらに,有理数の埋め込みに基づく主成分分析を用いて,有理数のクラスタリングパターンを探索する。
本研究は、自動スコアリングにおけるLLMの精度と「思考」に関する知見を提供し、人間のスコアリングとLLMに基づく自動スコアリングの両方の背景にある理論的根拠の理解を向上させるのに役立つ。
関連論文リスト
- Skewed Score: A statistical framework to assess autograders [2.9645858732618238]
LLM-as-a-judge"あるいはオートグラファーは、人間の評価に代わるスケーラブルな代替手段を提供する。
彼らは様々な信頼性を示し、体系的なバイアスを示すかもしれない。
そこで本稿では,研究者が自動分解器を同時に評価できる統計フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-04T18:45:10Z) - Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring [21.7782670140939]
大規模言語モデル(LLM)は、構築された応答評価のための自動スコアリングを行う上で、強力な可能性を示している。
人間によってランク付けされた構築された応答は、通常、与えられた格付けされたルーリックに基づいているが、LSMがスコアを割り当てる方法はほとんど不明である。
本稿では,理科の課題に対する学生の書面回答と人間のスコアとの整合性を評価するために,LLMが用いたグレーディングルーブリックを明らかにする。
論文 参考訳(メタデータ) (2024-07-04T22:26:20Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。