論文の概要: Implicit Grading Bias in Large Language Models: How Writing Style Affects Automated Assessment Across Math, Programming, and Essay Tasks
- arxiv url: http://arxiv.org/abs/2603.18765v1
- Date: Thu, 19 Mar 2026 11:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.109466
- Title: Implicit Grading Bias in Large Language Models: How Writing Style Affects Automated Assessment Across Math, Programming, and Essay Tasks
- Title(参考訳): 大規模言語モデルにおける暗黙のグラディングバイアス: 文章スタイルが数学、プログラミング、エッセイタスクにおける自動評価にどのように影響するか
- Authors: Rudra Jadhav, Janhavi Danve, Sonalika Shaw,
- Abstract要約: 本研究では,大言語モデル (LLM) が,内容の正しさが一定である場合の書き込みスタイルに基づいて,暗黙のグレーディングバイアスを示すか否かを検討する。
2つの最先端のオープンソース LLM は、1-10 スケールでレスポンスをグレードし、内容の正確性のみを評価し、書き込みスタイルを無視するように指示された。
以上の結果から,Essay/Writingタスクにおける統計的に有意なグレーディングバイアスが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly deployed as automated graders in educational settings, concerns about fairness and bias in their evaluations have become critical. This study investigates whether LLMs exhibit implicit grading bias based on writing style when the underlying content correctness remains constant. We constructed a controlled dataset of 180 student responses across three subjects (Mathematics, Programming, and Essay/Writing), each with three surface-level perturbation types: grammar errors, informal language, and non-native phrasing. Two state-of-the-art open-source LLMs -- LLaMA 3.3 70B (Meta) and Qwen 2.5 72B (Alibaba) -- were prompted to grade responses on a 1-10 scale with explicit instructions to evaluate content correctness only and to disregard writing style. Our results reveal statistically significant grading bias in Essay/Writing tasks across both models and all perturbation types (p < 0.05), with effect sizes ranging from medium (Cohen's d = 0.64) to very large (d = 4.25). Informal language received the heaviest penalty, with LLaMA deducting an average of 1.90 points and Qwen deducting 1.20 points on a 10-point scale -- penalties comparable to the difference between a B+ and C+ letter grade. Non-native phrasing was penalized 1.35 and 0.90 points respectively. In sharp contrast, Mathematics and Programming tasks showed minimal bias, with most conditions failing to reach statistical significance. These findings demonstrate that LLM grading bias is subject-dependent, style-sensitive, and persists despite explicit counter-bias instructions in the grading prompt. We discuss implications for equitable deployment of LLM-based grading systems and recommend bias auditing protocols before institutional adoption.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育環境における自動化されたグレーダーとしてますます普及しているため、評価の公平性や偏見に対する懸念が重要になっている。
本研究は,LLMが内容の正しさを一定に保っている場合の書き込みスタイルに基づいて,暗黙のグレーディングバイアスを示すか否かを考察する。
我々は3つの主題(数学、プログラミング、Essay/Writing)で180人の学生の反応を制御したデータセットを構築し、それぞれに3つの面レベルの摂動型(文法エラー、非公式言語、非ネイティブなフレーズ)を配置した。
LLaMA 3.3 70B (Meta) と Qwen 2.5 72B (Alibaba) の2つの最先端のオープンソース LLM は、コンテンツの正確性のみを評価し、書き込みスタイルを無視する明確な指示で、1-10スケールのレスポンスをグレードするよう促された。
両モデルおよび全摂動型(p < 0.05)のEssay/Writingタスクにおける統計的に有意なグレーディングバイアスを示し,その効果サイズは媒体(コーエンd = 0.64)から非常に大きい(d = 4.25)。
インフォーマル言語は最も重いペナルティを受けており、LLaMAは平均1.90点、Qwenは10点で1.20点を減じている。
非ネイティブなフレーズは、それぞれ1.35点と0.90点に罰せられた。
対照的に、数学とプログラミングのタスクは最小限のバイアスを示し、ほとんどの条件は統計的に意味をなさない。
以上の結果から, LLMグレーディングバイアスは主観的依存, スタイル感受性, 持続的であり, グレーディングプロンプトの明確な反バイアス命令にもかかわらず持続することが示唆された。
我々は,LLMに基づくグレーティングシステムの公平な展開の意義を論じ,制度導入前のバイアス監査プロトコルを推奨する。
関連論文リスト
- Leveraging Large Language Models for Predictive Analysis of Human Misery [1.2458057399345226]
本研究では,Large Language Models (LLMs) を用いて,人間に知覚された悲惨なスコアを予測する。
我々は、ゼロショット、固定コンテキスト、検索に基づくプロンプトを含む複数のプロンプト戦略を評価する。
静的評価を超えて,テレビフォーマットに触発された新たなゲーム化フレームワークである"Misery Game Show"を導入する。
論文 参考訳(メタデータ) (2025-08-18T07:02:59Z) - Implicit Bias in LLMs: A Survey [2.07180164747172]
本稿では,大規模言語モデルにおける暗黙バイアスに関する既存の文献を包括的にレビューする。
まず、心理学における暗黙の偏見に関連する重要な概念、理論、方法を紹介する。
検出方法は,単語関連,タスク指向テキスト生成,意思決定の3つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2025-03-04T16:49:37Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Likelihood-based Mitigation of Evaluation Bias in Large Language Models [29.953609131069523]
大規模言語モデル(LLM)は、自然言語生成タスクを自動メトリクスとして評価するために広く使われている。
LLMが評価に使用される場合、確率バイアスが存在する可能性がある。
論文 参考訳(メタデータ) (2024-02-25T04:52:02Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。