論文の概要: Quality-Conditioned Agreement in Automated Short Answer Scoring: Mid-Range Degradation and the Impact of Task-Specific Adaptation
- arxiv url: http://arxiv.org/abs/2605.07647v1
- Date: Fri, 08 May 2026 12:12:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.033443
- Title: Quality-Conditioned Agreement in Automated Short Answer Scoring: Mid-Range Degradation and the Impact of Task-Specific Adaptation
- Title(参考訳): 自動短問合せにおける品質合意:ミッドランジ劣化とタスク特化適応の影響
- Authors: Abigail Victoria Gurin Schleifer, Moriah Ariely, Beata Beigman Klebanov, Asaf Salman, Giora Alexandron,
- Abstract要約: 自動短解スコアリング(ASAS)は、差別的で微調整されたモデルから、数ショット設定で使用される大きな言語モデル(LLM)にシフトしている。
本研究では,異なるモデルのタスク固有適応度と品質条件のスコアリング合意との関係について検討する。
- 参考スコア(独自算出の注目度): 0.3078691410268859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated short answer scoring (ASAS) is shifting from discriminative, fine-tuned models to large language models (LLMs) used in few-shot settings. This paradigm leverages LLMs broad world knowledge and ease of deployment, but limited task-specific data may reduce alignment on complex scoring tasks. In particular, its impact on scoring partially correct responses that require nuanced interpretation remains underexplored. We investigate the relationship between the degree of task-specific adaptation of different models and quality-conditioned scoring agreement. We compare three LLMs (GPT-5.2, GPT-4o, Claude Opus 4.5) in few-shot mode, a fine-tuned BERT-based encoder, and a human expert on two open-ended biology items, using several hundred student responses and ground truth scores provided by a biology education expert. The results show that human-human agreement is highest and stable across the full quality spectrum. All AI models perform well on fully correct and fully incorrect responses, but exhibit substantial degradation on mid-range responses. This mid-range degradation is conditioned on task-specific adaptation: It is most severe in few-shot LLMs with few examples and decreases as task-specific data increases, with fine-tuned encoder models performing best. This mid-range degradation may lead to inequitable evaluation of responses produced by students with developing understanding. Our findings highlight the importance of quality-conditioned fairness, with particular attention to mid-range responses.
- Abstract(参考訳): 自動短解スコアリング(ASAS)は、差別的で微調整されたモデルから、数ショット設定で使用される大きな言語モデル(LLM)にシフトしている。
このパラダイムは、LLMの広い世界の知識と展開の容易さを活用するが、タスク固有の限られたデータは、複雑なスコアリングタスクのアライメントを減少させる可能性がある。
特に、ニュアンス解釈を必要とする部分的正しい応答のスコアリングに対する影響は、未解明のままである。
本研究では,異なるモデルのタスク固有適応度と品質条件のスコアリング合意との関係について検討する。
我々は,小ショットモードの3つのLDM (GPT-5.2, GPT-4o, Claude Opus 4.5) と細調整のBERTエンコーダと,生物学教育の専門家が提供した数百人の学生の回答と地上の真実スコアを用いて,2つのオープンエンド生物学アイテムに関する人間専門家を比較した。
その結果,ヒトとヒトの合意は,完全品質のスペクトルにおいて最高かつ安定であることが示唆された。
すべてのAIモデルは、完全に正確で完全に不正確な応答でうまく機能するが、ミッドレンジの応答では大幅に劣化する。
この中距離劣化はタスク固有適応に条件付けされている: 少数例のLLMでは最も深刻であり、タスク固有データが増加するにつれて減少し、微調整エンコーダモデルが最も良く機能する。
この中距離劣化は、理解を深める学生が生み出す反応を不平等に評価することにつながる可能性がある。
本研究は品質条件の公平さの重要性を強調し,特に中距離応答に注目した。
関連論文リスト
- Estimating LLM Grading Ability and Response Difficulty in Automatic Short Answer Grading via Item Response Theory [0.0]
項目応答理論(IRT)に基づくLCMに基づくASAG評価フレームワークを提案する。
IRTモデルは、遅延グレーダ能力と応答グレーダの難しさの関数として正しさを格付けする。
その結果, 性能が類似したモデルであっても, 応答困難が増大するにつれて, グルーピング精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2026-04-30T21:16:59Z) - Does Tone Change the Answer? Evaluating Prompt Politeness Effects on Modern LLMs: GPT, Gemini, LLaMA [0.6263481844384227]
本研究は,インタラクショントーンがモデル精度に与える影響を検討するためのシステム評価フレームワークを提案する。
GPT-4o mini (OpenAI)、Gemini 2.0 Flash (Google DeepMind)、Llama 4 Scout (Meta) の3つのメジャー言語モデルにこのフレームワークを適用した。
以上の結果から,トーン感受性はモデル依存的かつドメイン依存的であることが示唆された。中性または超親和性は概してVery Rudeのプロンプトよりも高い精度が得られるが,統計的に有意な影響はヒューマニティタスクのサブセットにのみ現れる。
論文 参考訳(メタデータ) (2025-12-14T19:25:20Z) - Artificial-Intelligence Grading Assistance for Handwritten Components of a Calculus Exam [41.99844472131922]
大規模な1年間の試験では、生徒の手書き作業は、教師助手(TA)が使用するのと同じルーリックに対して、GPT-5で評価された。
我々は,AIスコアとモデル予測スコアとの偏差に基づいて,部分クレディットしきい値と項目応答理論(2PL)リスク尺度を併用したループ型フィルタを校正した。
フィルタされていないAI-TA契約は適度で、低レベルのフィードバックには適していたが、高レベルの使用には適していなかった。
論文 参考訳(メタデータ) (2025-10-04T15:07:06Z) - AutoEvoEval: An Automated Framework for Evolving Close-Ended LLM Evaluation Data [0.6278186810520364]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
既存の評価ベンチマークは、しばしば静的で、その堅牢性と一般化を十分に評価するのに不十分である。
本稿では,質問応答などのクローズドなタスクのための進化型評価フレームワークであるAutoEvoEvalを提案する。
論文 参考訳(メタデータ) (2025-06-30T11:18:56Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。
GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。
以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-18T23:38:21Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。