論文の概要: Benchmarking Educational LLMs with Analytics: A Case Study on Gender Bias in Feedback
- arxiv url: http://arxiv.org/abs/2511.08225v1
- Date: Wed, 12 Nov 2025 01:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.704097
- Title: Benchmarking Educational LLMs with Analytics: A Case Study on Gender Bias in Feedback
- Title(参考訳): 分析による教育用LDMのベンチマーク:フィードバックにおけるジェンダーバイアスのケーススタディ
- Authors: Yishan Du, Conrad Borchers, Mutlu Cukurova,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のバイアスを検出するための埋め込み型ベンチマークフレームワークを提案する。
AES 2.0コーパスからの600の真正学生エッセイを用いて, 2次元に沿って制御された偽物を構築した。
GPT-5 mini, GPT-4o mini, DeepSeek-R1, DeepSeek-R1-Qwen, Gemini 2.5 Pro, Llama-3-8Bの6種類のLCMについて検討した。
すべてのモデルにおいて、暗黙的な操作は、男性や女性の反事実に対して、女性よりも大きな意味的シフトを確実に引き起こした。
- 参考スコア(独自算出の注目度): 0.06951558137930917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As teachers increasingly turn to GenAI in their educational practice, we need robust methods to benchmark large language models (LLMs) for pedagogical purposes. This article presents an embedding-based benchmarking framework to detect bias in LLMs in the context of formative feedback. Using 600 authentic student essays from the AES 2.0 corpus, we constructed controlled counterfactuals along two dimensions: (i) implicit cues via lexicon-based swaps of gendered terms within essays, and (ii) explicit cues via gendered author background in the prompt. We investigated six representative LLMs (i.e. GPT-5 mini, GPT-4o mini, DeepSeek-R1, DeepSeek-R1-Qwen, Gemini 2.5 Pro, Llama-3-8B). We first quantified the response divergence with cosine and Euclidean distances over sentence embeddings, then assessed significance via permutation tests, and finally, visualised structure using dimensionality reduction. In all models, implicit manipulations reliably induced larger semantic shifts for male-female counterfactuals than for female-male. Only the GPT and Llama models showed sensitivity to explicit gender cues. These findings show that even state-of-the-art LLMs exhibit asymmetric semantic responses to gender substitutions, suggesting persistent gender biases in feedback they provide learners. Qualitative analyses further revealed consistent linguistic differences (e.g., more autonomy-supportive feedback under male cues vs. more controlling feedback under female cues). We discuss implications for fairness auditing of pedagogical GenAI, propose reporting standards for counterfactual evaluation in learning analytics, and outline practical guidance for prompt design and deployment to safeguard equitable feedback.
- Abstract(参考訳): 教員が教育実践でGenAIに目を向けるにつれて、教育目的のために大規模言語モデル(LLM)をベンチマークする堅牢な方法が必要である。
本稿では,LLMのバイアスを形式的フィードバックの文脈で検出するための埋め込み型ベンチマークフレームワークを提案する。
AES 2.0コーパスの600名の真正学生エッセイを用いて, 2次元の制御された対策を構築した。
(i)エッセイにおけるジェンダー付き用語の辞書に基づくスワップによる暗黙の手がかり
(ii)プロンプトにおける性別付き著者の背景による明示的な手がかり。
GPT-5 mini, GPT-4o mini, DeepSeek-R1, DeepSeek-R1-Qwen, Gemini 2.5 Pro, Llama-3-8Bの6種類のLCMについて検討した。
まず,コサインとユークリッド距離の文埋め込みによる応答のばらつきを定量化し,次に置換試験により重要度を評価し,最後に次元の減少を用いた視覚構造について検討した。
すべてのモデルにおいて、暗黙的な操作は、男性や女性の反事実に対して、女性よりも大きな意味的シフトを確実に引き起こした。
GPTモデルとLlamaモデルのみ、明示的な性別的手がかりに対する感受性を示した。
これらの結果から,現在最先端のLCMでさえ,性別置換に対する非対称な意味的反応を示し,学習者に提供するフィードバックに永続的な性別バイアスが生じることが示唆された。
質的分析により、一貫した言語的差異が明らかになった(例えば、男性的手がかり下ではより自律的なフィードバック、女性的手がかり下ではより制御的なフィードバック)。
我々は,教育学におけるGenAIの公正性監査の意義を論じ,学習分析における対実的評価のための報告基準を提案し,適切なフィードバックを守るために設計と展開を迅速に行うための実践的ガイダンスを概説する。
関連論文リスト
- Exploring Gender Bias in Large Language Models: An In-depth Dive into the German Language [21.87606488958834]
大規模言語モデル(LLM)における性別バイアス評価のためのドイツの5つのデータセットを提案する。
データセットは、ジェンダーバイアスというよく確立された概念に基づいており、複数の方法論を通してアクセス可能である。
8種類の多言語 LLM モデルで報告された本研究は,ドイツ語の性差にかかわる独特な課題を明らかにした。
論文 参考訳(メタデータ) (2025-07-22T13:09:41Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Unraveling Downstream Gender Bias from Large Language Models: A Study on
AI Educational Writing Assistance [13.276943737418417]
大規模言語モデル (LLMs) は、学生に文章の提示などの教育的タスクにますます活用されている。
これまでの研究は、モデルとデータ表現のバイアスを別々に研究してきた。
本稿では,AI記述支援パイプラインによるバイアス伝達について検討する。
論文 参考訳(メタデータ) (2023-11-06T18:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。