論文の概要: Towards Transparent AI Grading: Semantic Entropy as a Signal for Human-AI Disagreement
- arxiv url: http://arxiv.org/abs/2508.04105v1
- Date: Wed, 06 Aug 2025 06:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.563641
- Title: Towards Transparent AI Grading: Semantic Entropy as a Signal for Human-AI Disagreement
- Title(参考訳): 透明なAIグレーディングに向けて:人間とAIの区別のシグナルとしてのセマンティックエントロピー
- Authors: Karrtik Iyer, Manikandan Ravikiran, Prasanna Pendse, Shayan Mohanty,
- Abstract要約: そこで本研究では,GPT-4が生成する複数の生徒の反応の変動性の尺度であるセマンティックエントロピーを紹介した。
我々の研究は、セマンティックエントロピーを、より透明で信頼性の高いAI支援グレーディングをサポートする、解釈可能な不確実性信号として位置づけた。
- 参考スコア(独自算出の注目度): 2.6293270655263385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated grading systems can efficiently score short-answer responses, yet they often fail to indicate when a grading decision is uncertain or potentially contentious. We introduce semantic entropy, a measure of variability across multiple GPT-4-generated explanations for the same student response, as a proxy for human grader disagreement. By clustering rationales via entailment-based similarity and computing entropy over these clusters, we quantify the diversity of justifications without relying on final output scores. We address three research questions: (1) Does semantic entropy align with human grader disagreement? (2) Does it generalize across academic subjects? (3) Is it sensitive to structural task features such as source dependency? Experiments on the ASAP-SAS dataset show that semantic entropy correlates with rater disagreement, varies meaningfully across subjects, and increases in tasks requiring interpretive reasoning. Our findings position semantic entropy as an interpretable uncertainty signal that supports more transparent and trustworthy AI-assisted grading workflows.
- Abstract(参考訳): 自動階調システムは、短時間回答の応答を効率よく評価できるが、階調決定が不確実であるか、あるいは競合する可能性があるかを示さないことが多い。
そこで本研究では,GPT-4が生成する複数の生徒の反応の変動性の尺度であるセマンティックエントロピーを紹介した。
包括的類似性による合理的なクラスタリングと、これらのクラスタ上での計算エントロピーにより、最終的な出力スコアに頼ることなく、正当化の多様性を定量化する。
1) 意味的エントロピーはヒトのグレーダーの不一致と一致しているか?
(2)学術分野にまたがって一般化されるか?
(3)ソース依存性のような構造的タスクの特徴に敏感か?
ASAP-SASデータセットの実験では、意味エントロピーはレーダの不一致と相関し、被験者間で有意に変化し、解釈的推論を必要とするタスクの増加を示す。
我々の発見は、セマンティックエントロピーを、より透明で信頼性の高いAI支援グレーディングワークフローをサポートする、解釈可能な不確実性信号として位置づけている。
関連論文リスト
- How does Transformer Learn Implicit Reasoning? [41.315116538534106]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - A Semantic Approach to Decidability in Epistemic Planning (Extended
Version) [72.77805489645604]
我々は決定可能性を達成するために新しい意味論的アプローチを用いる。
具体的には、知識の論理S5$_n$と(知識)可換性と呼ばれる相互作用公理を拡大する。
我々は,本フレームワークが,独立した知識である共通知識の有限的非固定点的特徴を認めていることを証明した。
論文 参考訳(メタデータ) (2023-07-28T11:26:26Z) - Learnability with PAC Semantics for Multi-agent Beliefs [38.88111785113001]
推論と帰納の緊張は、おそらく哲学、認知、人工知能といった分野において最も根本的な問題である。
Valiant氏は、学習の課題は推論と統合されるべきである、と認識した。
古典的な包含よりも弱いが、クエリに応答する強力なモデル理論のフレームワークを可能にする。
論文 参考訳(メタデータ) (2023-06-08T18:22:46Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Domain-level Pairwise Semantic Interaction for Aspect-Based Sentiment
Classification [3.1977819149534987]
Pairwise Semantic Interaction (PSI) モジュールを提案する。
各文のキーセマンティックな特徴を効果的に強調するために、異なるゲートが生成される。
最後に、ベクトル間の敵対的相互作用は、2つの文の意味表現をより区別しやすくするために用いられる。
論文 参考訳(メタデータ) (2022-02-21T07:59:17Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - Subjective Question Answering: Deciphering the inner workings of
Transformers in the realm of subjectivity [0.0]
私は最近リリースされたSpat-selection Question Answering、すなわちSubjQAのデータセットを利用しています。
SubjQAは、6つの異なるドメインのレビュー項に対応する主観的な意見を求める質問を含む最初のデータセットである。
私はTransformerベースのアーキテクチャの内部動作を調査し、まだよく理解されていない"ブラックボックス"モデルの理解を深めるために貢献しました。
論文 参考訳(メタデータ) (2020-06-02T13:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。