論文の概要: Does the Prompt-based Large Language Model Recognize Students' Demographics and Introduce Bias in Essay Scoring?
- arxiv url: http://arxiv.org/abs/2504.21330v1
- Date: Wed, 30 Apr 2025 05:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 22:21:57.082771
- Title: Does the Prompt-based Large Language Model Recognize Students' Demographics and Introduce Bias in Essay Scoring?
- Title(参考訳): プロンプトに基づく大規模言語モデルは生徒のデモグラフィックを認識し,エッセイスコーリングにバイアスを導入するか?
- Authors: Kaixun Yang, Mladen Raković, Dragan Gašević, Guanliang Chen,
- Abstract要約: 大規模言語モデル (LLM) は自動エッセイ・スコーリング (AES) で広く使われている。
本研究は,学生の属性の予測力と評価課題における評価バイアスとの関係について検討した。
- 参考スコア(独自算出の注目度): 3.7498611358320733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are widely used in Automated Essay Scoring (AES) due to their ability to capture semantic meaning. Traditional fine-tuning approaches required technical expertise, limiting accessibility for educators with limited technical backgrounds. However, prompt-based tools like ChatGPT have made AES more accessible, enabling educators to obtain machine-generated scores using natural-language prompts (i.e., the prompt-based paradigm). Despite advancements, prior studies have shown bias in fine-tuned LLMs, particularly against disadvantaged groups. It remains unclear whether such biases persist or are amplified in the prompt-based paradigm with cutting-edge tools. Since such biases are believed to stem from the demographic information embedded in pre-trained models (i.e., the ability of LLMs' text embeddings to predict demographic attributes), this study explores the relationship between the model's predictive power of students' demographic attributes based on their written works and its predictive bias in the scoring task in the prompt-based paradigm. Using a publicly available dataset of over 25,000 students' argumentative essays, we designed prompts to elicit demographic inferences (i.e., gender, first-language background) from GPT-4o and assessed fairness in automated scoring. Then we conducted multivariate regression analysis to explore the impact of the model's ability to predict demographics on its scoring outcomes. Our findings revealed that (i) prompt-based LLMs can somewhat infer students' demographics, particularly their first-language backgrounds, from their essays; (ii) scoring biases are more pronounced when the LLM correctly predicts students' first-language background than when it does not; and (iii) scoring error for non-native English speakers increases when the LLM correctly identifies them as non-native.
- Abstract(参考訳): 大規模言語モデル (LLM) は意味的意味を捉える能力のため、自動エッセイ・スコーリング (AES) で広く使われている。
従来の微調整アプローチでは技術的な専門知識が必要であり、技術的な背景が限られていた教育者のアクセシビリティが制限された。
しかし、ChatGPTのようなプロンプトベースのツールにより、AESはよりアクセスしやすくなり、教育者は自然言語のプロンプト(プロンプトベースのパラダイム)を使って機械によるスコアを得られるようになった。
進歩にもかかわらず、先行研究は微調整LDMの偏見を示しており、特に不利なグループに対してである。
このようなバイアスが最先端のツールによるプロンプトベースのパラダイムで持続するか、増幅されているかは、まだ不明である。
このようなバイアスは、事前学習されたモデルに埋め込まれた人口統計情報(例えば、LLMのテキスト埋め込みによる人口統計属性の予測能力)に由来すると考えられており、本研究では、学生の人口統計属性の予測力と、即時学習パラダイムにおけるスコアリングタスクにおける予測バイアスとの関係について検討する。
25,000人以上の学生の議論的エッセイのデータセットを用いて、GPT-4oから人口統計学的推論(性別、ファーストランゲージ背景)を抽出し、自動採点における公正さを評価するプロンプトを設計した。
次に,多変量回帰分析を行い,モデルが評価結果に与える影響について検討した。
私たちの発見は
(i)プロンプトベースのLLMは、学生の人口統計学、特に最初の言語背景をエッセイから推測することができる。
二 評価バイアスは、LLMが学生の第一言語背景を、その時より正確に予測したとき、より顕著になる。
3)LLMが母国英語話者を正しく識別すると,非母国英語話者の採点誤差が増大する。
関連論文リスト
- Machine-assisted writing evaluation: Exploring pre-trained language models in analyzing argumentative moves [28.01557438111706]
縦型学習者コーパスにおける議論行動解析における事前学習言語モデル(PLM)の有効性について検討した。
1643年、中国の235人の英語学習者から引用文の長手コーパスが収集され、6つの移動タイプに注釈付けされる。
その結果,PLMの信頼性は,F1スコアが0.743であり,既存のモデルを上回った。
論文 参考訳(メタデータ) (2025-03-25T02:21:12Z) - Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。
ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。
実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文 参考訳(メタデータ) (2025-01-29T05:21:31Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。
我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。
以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - BEADs: Bias Evaluation Across Domains [9.19312529999677]
Bias Evaluations Across Domains BEADsデータセットは、幅広いNLPタスクをサポートするように設計されています。
本論文の重要な焦点は,GPT4でアノテートされたゴールドラベルデータセットである。
この結果から,BEADは,このデータセットを微調整した場合に,多くのバイアスを効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T16:18:30Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Toward Fairness in Text Generation via Mutual Information Minimization
based on Importance Sampling [23.317845744611375]
そこで本研究では,生成した文のセマンティクスと人口極性との間の相互情報の最小化を提案する。
このように、人口集団の言及は、生成したテキストに記述される方法から独立することが奨励される。
また, 脱バイアス後のPLMの言語モデリング能力を維持する蒸留機構を提案する。
論文 参考訳(メタデータ) (2023-02-25T18:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。