Fugu-MT 論文翻訳(概要): Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

論文の概要: Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

arxiv url: http://arxiv.org/abs/2603.04820v1
Date: Thu, 05 Mar 2026 05:11:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.084161
Title: Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses
Title（参考訳）: アンチクライマックスの自動化:AIの短解点と単語の弱さをメタ分析して理解する
Authors: Michael Hardy,
Abstract要約: 本研究は, 子どもの筆記作品の採点作業において, 人的専門家の難易度は, LLMの成績に統計的に影響を及ぼさないことを示した。具体的には,人間の得点者によって測定される最も簡単なスコアリングタスクが,LSMにとって最も難しいものであることを示す。発見者は、自己回帰モデルの既知の統計的欠点を予想するシステム設計を主張する。
参考スコア（独自算出の注目度）: 4.061135251278187
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Automated short-answer scoring lags other LLM applications. We meta-analyze 890 culminating results across a systematic review of LLM short-answer scoring studies, modeling the traditional effect size of Quadratic Weighted Kappa (QWK) with mixed effects metaregression. We quantitatively illustrate that that the level of difficulty for human experts to perform the task of scoring written work of children has no observed statistical effect on LLM performance. Particularly, we show that some scoring tasks measured as the easiest by human scorers were the hardest for LLMs. Whether by poor implementation by thoughtful researchers or patterns traceable to autoregressive training, on average decoder-only architectures underperform encoders by 0.37--a substantial difference in agreement with humans. Additionally, we measure the contributions of various aspects of LLM technology on successful scoring such as tokenizer vocabulary size, which exhibits diminishing returns--potentially due to undertrained tokens. Findings argue for systems design which better anticipates known statistical shortcomings of autoregressive models. Finally, we provide additional experiments to illustrate wording and tokenization sensitivity and bias elicitation in high-stakes education contexts, where LLMs demonstrate racial discrimination. Code and data for this study are available.
Abstract（参考訳）: 自動ショートアンサースコアリングは、他のLLMアプリケーションにラグを与える。準重み付きカッパ(QWK, Quadratic Weighted Kappa, QWK)の従来的効果サイズと混合効果のメタレグレスをモデル化し, LLM短解点検定の体系的検討を行い, 890のメタアナライズ結果を得た。本研究は, 子どもの筆記作業において, 人的専門家が行う難易度が, LLMの成績に統計的に影響を及ぼさないことを定量的に説明する。特に,人間の得点者によって測定される最も簡単なスコアリングタスクは,LSMにとって最も難しい課題であった。自己回帰学習に追随する思考的研究者やパターンによって、平均的なデコーダのみのアーキテクチャでは、人間との合意の実質的な違いであるエンコーダを0.37倍に減らしている。さらに、トークン化の語彙サイズなど、LLM技術の様々な側面が、未学習トークンによるリターンの減少を潜在的に示すようなスコアリングに寄与していることを測定する。発見者は、自己回帰モデルの既知の統計的欠点を予想するシステム設計を主張する。最後に,LLMが人種差別を実証する高度教育の文脈において,単語の表現やトークン化の感度,バイアス誘発について説明するための追加実験を行った。この研究のコードとデータは利用可能だ。

関連論文リスト

The Erosion of LLM Signatures: Can We Still Distinguish Human and LLM-Generated Scientific Ideas After Iterative Paraphrasing? [0.7162422068114824]
我々は、人間とLLM生成するアイデアを区別する最先端の機械学習モデル(SOTA)の能力を評価する。この結果は,SOTAモデルがソース属性に直面する課題を浮き彫りにした。
論文参考訳（メタデータ） (2025-12-04T23:22:21Z)
Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
論文参考訳（メタデータ） (2025-09-10T17:58:53Z)
What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文参考訳（メタデータ） (2024-12-11T04:52:41Z)
The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文参考訳（メタデータ） (2024-10-07T02:30:18Z)
CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
Learning on Graphs with Large Language Models(LLMs): A Deep Dive into Model Robustness [39.57155321515097]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。 LLMがグラフ上での学習において堅牢性を示すかどうかは不明である。
論文参考訳（メタデータ） (2024-07-16T09:05:31Z)
Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring [21.7782670140939]
大規模言語モデル(LLM)は、構築された応答評価のための自動スコアリングを行う上で、強力な可能性を示している。人間によってランク付けされた構築された応答は、通常、与えられた格付けされたルーリックに基づいているが、LSMがスコアを割り当てる方法はほとんど不明である。本稿では,理科の課題に対する学生の書面回答と人間のスコアとの整合性を評価するために,LLMが用いたグレーディングルーブリックを明らかにする。
論文参考訳（メタデータ） (2024-07-04T22:26:20Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。 GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文参考訳（メタデータ） (2024-06-12T02:23:51Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。