論文の概要: Marked Pedagogies: Examining Linguistic Biases in Personalized Automated Writing Feedback
- arxiv url: http://arxiv.org/abs/2603.12471v1
- Date: Thu, 12 Mar 2026 21:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.776352
- Title: Marked Pedagogies: Examining Linguistic Biases in Personalized Automated Writing Feedback
- Title(参考訳): マーク付きペダゴギー:パーソナライズされた自動書き起こしフィードバックにおける言語的バイアスの検討
- Authors: Mei Tan, Lena Phalen, Dorottya Demszky,
- Abstract要約: 性別,人種・民族性,学習ニーズ,達成度,モチベーションを組み込んだ素早い条件下で,600の8等級の説得エッセイを用いてフィードバックを得た。
その結果,エッセイ内容が同一であっても,学生属性を前提としたフィードバックの体系的,ステレオタイプ整合性の変化が明らかになった。
属性全体を通じて、モデルは、どのコンテンツが強調されたかだけでなく、どのように文章が判断されたか、どのように生徒が対処されたかも調整した。
- 参考スコア(独自算出の注目度): 6.51172312374669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective personalized feedback is critical to students' literacy development. Though LLM-powered tools now promise to automate such feedback at scale, LLMs are not language-neutral: they privilege standard academic English and reproduce social stereotypes, raising concerns about how "personalization" shapes the feedback students receive. We examine how four widely used LLMs (GPT-4o, GPT-3.5-turbo, Llama-3.3 70B, Llama-3.1 8B) adapt written feedback in response to student attributes. Using 600 eighth-grade persuasive essays from the PERSUADE dataset, we generated feedback under prompt conditions embedding gender, race/ethnicity, learning needs, achievement, and motivation. We analyze lexical shifts across model outputs by adapting the Marked Words framework. Our results reveal systematic, stereotype-aligned shifts in feedback conditioned on presumed student attributes--even when essay content was identical. Feedback for students marked by race, language, or disability often exhibited positive feedback bias and feedback withholding bias--overuse of praise, less substantive critique, and assumptions of limited ability. Across attributes, models tailored not only what content was emphasized but also how writing was judged and how students were addressed. We term these instructional orientations Marked Pedagogies and highlight the need for transparency and accountability in automated feedback tools.
- Abstract(参考訳): 効果的なパーソナライズされたフィードバックは、学生のリテラシー発達に不可欠である。
LLMを利用したツールは、このようなフィードバックを大規模に自動化することを約束しているが、LLMは言語ニュートラルではない。
GPT-4o, GPT-3.5-turbo, Llama-3.3 70B, Llama-3.1 8Bの4つのLLMが, 学生の属性に応答して, 書面フィードバックをどのように適応するかを検討した。
PERSUADEデータセットからの600の8段階の説得エッセイを用いて、ジェンダー、人種・民族性、学習ニーズ、達成、モチベーションを組み込んだ直接的な条件下でフィードバックを生成した。
我々はMarked Wordsフレームワークを適用して、モデル出力間の語彙シフトを分析する。
本結果から,エッセイ内容が同一である場合でも,学生の属性を前提としたフィードバックの体系的,ステレオタイプに整合した変化が明らかとなった。人種,言語,障害を特徴とする学生に対するフィードバックは,賞賛の偏見を抱きながら,肯定的なフィードバックバイアスやフィードバックを呈することも多い。
属性全体を通じて、モデルは、どのコンテンツが強調されたかだけでなく、どのように文章が判断されたか、どのように生徒が対処されたかも調整した。
自動フィードバックツールにおける透明性と説明責任の必要性を強調します。
関連論文リスト
- Simulating Identity, Propagating Bias: Abstraction and Stereotypes in LLM-Generated Text [8.988787218035414]
ソシオデミノグラフィーのカテゴリーとステレオタイプ的・非ステレオタイプ的属性をリンクする短いテキストを生成する際に,ペルソナ・プロンプトが言語的抽象化のレベルを異にするかどうかを検討する。
本研究は, ソシオデミノグラフィーグループを代表するペルソナの生態に対する批判と, ステレオタイプの普及リスクへの懸念を提起するものである。
論文 参考訳(メタデータ) (2025-09-10T10:49:21Z) - Help Me Write a Story: Evaluating LLMs' Ability to Generate Writing Feedback [57.200668979963694]
我々は1,300のストーリーからなる新しいテストセットを提示し、故意に執筆問題を紹介した。
本研究では,この作業においてよく用いられるLCMの性能を,自動評価と人的評価の両方を用いて検討する。
論文 参考訳(メタデータ) (2025-07-21T18:56:50Z) - Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - From Handwriting to Feedback: Evaluating VLMs and LLMs for AI-Powered Assessment in Indonesian Classrooms [10.687406183657275]
インドネシアの4年生の教室で14K以上の手書き回答を用いて,最先端のVLMとLDMを評価した。
我々のデータセットは、実教室から自然にキュリーで多様な手書きを特徴とし、現実的な視覚的および言語的課題を呈している。
論文 参考訳(メタデータ) (2025-06-05T09:41:09Z) - Automated Assignment Grading with Large Language Models: Insights From a Bioinformatics Course [0.0]
自然言語処理と大規模言語モデル(LLM)は、パーソナライズされたフィードバックの効率的な配信を可能にすることで、有望なソリューションを提供する。
自然言語処理と大規模言語モデル(LLM)の最近の進歩は、パーソナライズされたフィードバックの効率的な配信を可能にすることによって、有望なソリューションを提供する。
提案手法により,LLMは人間の評価値に匹敵する評価精度とフィードバック品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2025-01-24T13:59:14Z) - LLM-as-a-Judge & Reward Model: What They Can and Cannot Do [2.2469442203227863]
自動評価器の総合的な分析を行い,その挙動に関するいくつかの重要な知見を報告する。
英語の評価能力は言語固有の評価能力に大きく影響し,英語で訓練された評価者が他の言語に容易にスキルを伝達できることがわかった。
我々は、現在最先端の評価者が、英語と韓国語の両方において、複雑な推論問題の評価や生成の限界について、挑戦的なプロンプトに苦しむことに気付きました。
論文 参考訳(メタデータ) (2024-09-17T14:40:02Z) - Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - Exploring LLM Prompting Strategies for Joint Essay Scoring and Feedback Generation [13.854903594424876]
大規模言語モデル(LLM)は、一貫性と文脈に関連のあるテキストを生成する上で、強力な性能を示している。
本研究は,LLMをベースとしたゼロショットと数発のエッセイフィードバックの促進戦略について検討する。
Chain-of-Thoughtのプロンプトにインスパイアされた私たちは、自動エッセイスコア(AES)が生成したフィードバックの品質にどのような影響を及ぼすか、その程度について調査する。
論文 参考訳(メタデータ) (2024-04-24T12:48:06Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。