論文の概要: Content vs. Form: What Drives the Writing Score Gap Across Socioeconomic Backgrounds? A Generated Panel Approach
- arxiv url: http://arxiv.org/abs/2601.03469v1
- Date: Tue, 06 Jan 2026 23:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.092618
- Title: Content vs. Form: What Drives the Writing Score Gap Across Socioeconomic Backgrounds? A Generated Panel Approach
- Title(参考訳): コンテンツ vs. フォーム: 社会経済の背景におけるスコアギャップを駆動するものは何か? : 創発的パネルアプローチ
- Authors: Nadav Kunievsky, Pedro Pertusi,
- Abstract要約: 中心的な疑問は、スコアの社会経済的・統計的ギャップのどれ程が、学生が何を言うか、どのように言うかの違いによって引き起こされるかである。
本研究では,米国中高生による説得エッセイの大規模コーパスを用いて,この問題を考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Students from different socioeconomic backgrounds exhibit persistent gaps in test scores, gaps that can translate into unequal educational and labor-market outcomes later in life. In many assessments, performance reflects not only what students know, but also how effectively they can communicate that knowledge. This distinction is especially salient in writing assessments, where scores jointly reward the substance of students' ideas and the way those ideas are expressed. As a result, observed score gaps may conflate differences in underlying content with differences in expressive skill. A central question, therefore, is how much of the socioeconomic-status (SES) gap in scores is driven by differences in what students say versus how they say it. We study this question using a large corpus of persuasive essays written by U.S. middle- and high-school students. We introduce a new measurement strategy that separates content from style by leveraging large language models to generate multiple stylistic variants of each essay. These rewrites preserve the underlying arguments while systematically altering surface expression, creating a "generated panel" that introduces controlled within-essay variation in style. This approach allows us to decompose SES gaps in writing scores into contributions from content and style. We find an SES gap of 0.67 points on a 1-6 scale. Approximately 69% of the gap is attributable to differences in essay content quality, Style differences account for 26% of the gap, and differences in evaluation standards across SES groups account for the remaining 5%. These patterns seems stable across demographic subgroups and writing tasks. More broadly, our approach shows how large language models can be used to generate controlled variation in observational data, enabling researchers to isolate and quantify the contributions of otherwise entangled factors.
- Abstract(参考訳): 異なる社会経済的背景を持つ学生は、テストスコアの持続的なギャップを示し、そのギャップは人生の後に不平等な教育と労働市場の結果に変換される。
多くの評価では、パフォーマンスは生徒が知っていることだけでなく、その知識をいかに効果的に伝達できるかを反映している。
この区別は、学生のアイデアの物質とそれらのアイデアの表現方法に共同で報酬を与える、評価書の執筆において特に有益である。
その結果、観察されたスコアギャップは、基礎となる内容の違いと表現力の違いを説明できる可能性がある。
したがって、スコアの社会経済統計(SES)ギャップのどの程度が、学生が何を言っているかとどのように言うかの違いによって引き起こされているかが中心的な疑問である。
本研究では,米国中高生による説得エッセイの大規模コーパスを用いて,この問題を考察する。
各エッセイの複数のスタイリスティックなバリエーションを生成するために,大規模言語モデルを活用することで,コンテンツとスタイルを分離する新たな計測戦略を導入する。
これらの書き直しは、表面表現を体系的に変化させながら、根底にある議論を保存し、「生成パネル」を作成し、スタイル内での制御されたバリエーションを導入する。
このアプローチによって、スコアをコンテンツやスタイルからのコントリビューションに分割することが可能になる。
1-6スケールのSESギャップは0.67ポイントである。
ギャップの約69%はエッセイ内容の質の違いに起因するものであり、スタイルの違いはギャップの26%を占め、SESグループ間での評価基準の違いは残りの5%を占めている。
これらのパターンは、階層的なサブグループと書き込みタスクの間で安定しているように見える。
より広範に、我々のアプローチは、大きな言語モデルが観測データの制御された変動を生成するためにどのように使われるかを示し、研究者は、他の絡み合った要因の寄与を分離し、定量化することができる。
関連論文リスト
- Large Language Models Often Say One Thing and Do Another [49.22262396351797]
我々はWords and Deeds Consistency Test (WDCT)と呼ばれる新しい評価ベンチマークを開発した。
このベンチマークは、異なるドメインにわたる単語ベースの質問とdeedベースの質問の厳密な対応を確立する。
評価結果から,異なるLLMとドメイン間で単語と行為の矛盾が広範囲にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-10T07:34:54Z) - The Shrinking Landscape of Linguistic Diversity in the Age of Large Language Models [7.811355338367627]
大規模言語モデル (LLMs) は, 言語多様性の顕著な低下と関係があることが示唆された。
テキストの中核的な内容は、LLMがテキストを洗練・書き直しする際に保持されるが、書体スタイルを均質化するだけでなく、特定の支配的特徴やバイアスを選択的に増幅し、他を抑圧する方法でスタイル的要素を変更することも示している。
論文 参考訳(メタデータ) (2025-02-16T20:51:07Z) - Word Importance Explains How Prompts Affect Language Model Outputs [0.7223681457195862]
本研究では,個々の単語をインプロンプトで変化させることにより,大規模言語モデルの説明可能性を向上させる手法を提案する。
古典的注目とは違って、単語の重要度は、任意に定義されたテキストスコアに対する急進的な単語の影響を測定する。
その結果,単語の重要度スコアは,複数のスコア機能において期待される接尾辞の重要度と密接に関連していることがわかった。
論文 参考訳(メタデータ) (2024-03-05T15:04:18Z) - Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - Does Writing with Language Models Reduce Content Diversity? [16.22006159795341]
大規模言語モデル(LLM)は、モデルアシストによる協調的な記述の急増につながっている。
異なるユーザが同じモデルから提案を取り入れているため、生成したコンテンツの多様性が低下するリスクがある。
多様性指標のセットを開発し,InstructGPTによる記述は(GPT3ではなく)統計的に有意な多様性低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-09-11T02:16:47Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。