論文の概要: LLM Essay Scoring Under Holistic and Analytic Rubrics: Prompt Effects and Bias
- arxiv url: http://arxiv.org/abs/2604.00259v1
- Date: Tue, 31 Mar 2026 21:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.733303
- Title: LLM Essay Scoring Under Holistic and Analytic Rubrics: Prompt Effects and Bias
- Title(参考訳): LLMエッセイ : 立体的, 分析的ルービック下でのエッセイ:プロンプト効果とバイアス
- Authors: Filip J. Kucia, Anirban Chakraborty, Anna Wróblewska,
- Abstract要約: 我々は、人間のコンセンサススコア、方向性バイアス、バイアス推定の安定性との一致を分析した。
我々は,グラマーやコンベンションなどの低次懸念(LOC)特性に対して,大規模かつ安定な負の方向性バイアスを観察する。
この分析は、LOCバイアスが極めて小さな検証セットでしばしば検出可能であることを示している。
- 参考スコア(独自算出の注目度): 3.9562034587217187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite growing interest in using Large Language Models (LLMs) for educational assessment, it remains unclear how closely they align with human scoring. We present a systematic evaluation of instruction-tuned LLMs across three open essay-scoring datasets (ASAP 2.0, ELLIPSE, and DREsS) that cover both holistic and analytic scoring. We analyze agreement with human consensus scores, directional bias, and the stability of bias estimates. Our results show that strong open-weight models achieve moderate to high agreement with humans on holistic scoring (Quadratic Weighted Kappa about 0.6), but this does not transfer uniformly to analytic scoring. In particular, we observe large and stable negative directional bias on Lower-Order Concern (LOC) traits, such as Grammar and Conventions, meaning that models often score these traits more harshly than human raters. We also find that concise keyword-based prompts generally outperform longer rubric-style prompts in multi-trait analytic scoring. To quantify the amount of data needed to detect these systematic deviations, we compute the minimum sample size at which a 95% bootstrap confidence interval for the mean bias excludes zero. This analysis shows that LOC bias is often detectable with very small validation sets, whereas Higher-Order Concern (HOC) traits typically require much larger samples. These findings support a bias-correction-first deployment strategy: instead of relying on raw zero-shot scores, systematic score offsets can be estimated and corrected using small human-labeled bias-estimation sets, without requiring large-scale fine-tuning.
- Abstract(参考訳): 教育評価にLarge Language Models (LLMs) を使うことへの関心が高まりつつあるが、人間のスコアとどの程度密接な関係があるかは定かではない。
本稿では,3つのオープンエッセイスコアデータセット(ASAP 2.0, ELLIPSE, DREsS)にまたがって, 総合的および解析的スコアリングを対象とする命令調整LDMの体系的評価を行う。
我々は、人間のコンセンサススコア、方向性バイアス、バイアス推定の安定性との一致を分析した。
以上の結果から, 強大なオープンウェイトモデルは, 総合的なスコアリング(Quadratic Weighted Kappa 約0.6)において人間と中等度から高いコンセンサスを達成できることが示されたが, 解析的なスコアリングには一様ではない。
特に、グラマーやコンベンションのような低次懸念(LOC)特性に対して、大きな、安定した負の指向バイアスが観察される。
また、簡潔なキーワードベースのプロンプトは、一般に、マルチトレート分析スコアリングにおいて、より長いルーリックスタイルのプロンプトより優れていることも見出した。
これらの系統的偏差を検出するのに必要なデータの量を定量化するために、平均偏差に対する95%のブートストラップ信頼区間がゼロである最小サンプルサイズを計算する。
この分析によると、LOCバイアスは、非常に小さな検証セットで検出できることが多いが、高次懸念(HOC)特性は、通常、はるかに大きなサンプルを必要とする。
これらの結果は、ゼロショットスコアに頼る代わりに、大規模微調整を必要とせず、小さな人間のラベル付きバイアス推定セットを用いて、体系的なスコアオフセットを推定し、修正することができる。
関連論文リスト
- Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models [12.445845925904466]
言語モデルは、アライメントと評価において人間の嗜好判断のためのプロキシとして機能する。
それらは体系的な誤校正を示し、実質的な品質よりも表面的なパターンを優先する。
このバイアスは長さ、構造、スタイルといった機能への過度な依存として現れ、報酬のハッキングや信頼できない評価といった問題につながります。
論文 参考訳(メタデータ) (2025-06-05T17:59:32Z) - Class-Conditional Distribution Balancing for Group Robust Classification [11.525201208566925]
間違った理由からモデルが正しい予測に導かれるような豪華な相関関係は、堅牢な現実世界の一般化にとって重要な課題である。
クラス-条件分布における不均衡やミスマッチとして、突発的な相関を緩和することで、新しい視点を提供する。
本稿では,バイアスアノテーションと予測の両方を必要としない,シンプルで効果的な頑健な学習手法を提案する。
論文 参考訳(メタデータ) (2025-04-24T07:15:53Z) - Reducing Biases in Record Matching Through Scores Calibration [1.5530839016602822]
スコアバイアスの測定と低減のためのしきい値に依存しないフレームワークを提案する。
基準しきい値に基づく基準値の下では公平に見えても,いくつかの最先端マッチング手法がかなりのスコアバイアスを示すことを示す。
本稿では,2つのポストプロセッシングスコアキャリブレーションアルゴリズムを導入する。第1のキャリブは,ワッサーシュタイン・バリセンタを用いてグループワイズスコアの分布を調整し,人口統計学的パーティを目標とする。
第2のカラリブは、ラベルに依存したバイアス、例えば平等な機会を減らそうと予測されたラベルの条件である。
論文 参考訳(メタデータ) (2024-11-03T21:01:40Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Less Learn Shortcut: Analyzing and Mitigating Learning of Spurious
Feature-Label Correlation [44.319739489968164]
ディープニューラルネットワークは、タスクを理解するのではなく、意思決定をするためのショートカットとしてデータセットバイアスを取ることが多い。
本研究では,モデルがバイアスデータ分布から学習する単語特徴とラベルとの素早い相関に着目した。
本手法は, 偏りのある例と下級者の偏り度を定量的に評価する学習戦略である。
論文 参考訳(メタデータ) (2022-05-25T09:08:35Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。