論文の概要: Toward Subtrait-Level Model Explainability in Automated Writing Evaluation
- arxiv url: http://arxiv.org/abs/2509.08345v1
- Date: Wed, 10 Sep 2025 07:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.340928
- Title: Toward Subtrait-Level Model Explainability in Automated Writing Evaluation
- Title(参考訳): 自動筆記評価におけるサブトランジットレベルモデル説明可能性に向けて
- Authors: Alejandro Andrade-Lotero, Lee Becker, Joshua Southerland, Scott Hellman,
- Abstract要約: Subtrait (latent-trait component) の評価は、自動筆記スコアの透明性を高めるための有望な道を示す。
生成言語モデルによる説明可能性とサブトレーサビリティの試作を行い,ヒトのサブトレーサビリティと形質スコア,および自動と人間のサブトレーサスコアのモデスト相関を示す。
- 参考スコア(独自算出の注目度): 36.94429692322632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subtrait (latent-trait components) assessment presents a promising path toward enhancing transparency of automated writing scores. We prototype explainability and subtrait scoring with generative language models and show modest correlation between human subtrait and trait scores, and between automated and human subtrait scores. Our approach provides details to demystify scores for educators and students.
- Abstract(参考訳): Subtrait (latent-trait component) の評価は、自動筆記スコアの透明性を高めるための有望な道を示す。
生成言語モデルによる説明可能性とサブトレーサビリティの試作を行い,ヒトのサブトレーサビリティと形質スコア,および自動と人間のサブトレーサスコアのモデスト相関を示す。
我々のアプローチは、教育者や学生のスコアをデミスティフィケーションするための詳細を提供する。
関連論文リスト
- Exploring the Robustness of Model-Graded Evaluations and Automated
Interpretability [0.0]
グラデーションに対する自然言語理解に依存した評価は、他の言語モデルを使用することで、大規模に行うことができる。
モデルグレード評価のロバストさを、新しい認識方程式を含む異なるデータセットに対するインジェクションで検証する。
将来、よりインテリジェントなモデルが、彼らの評価モデルを操作したり、協力したりする可能性があると説明します。
論文 参考訳(メタデータ) (2023-11-26T17:11:55Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Towards Interpretable Summary Evaluation via Allocation of Contextual
Embeddings to Reference Text Topics [1.5749416770494706]
多面的解釈可能な要約評価法(MISEM)は、要約の文脈トークンの埋め込みを、参照テキストで特定されたセマンティックトピックに割り当てることに基づいている。
MISEMはTAC'08データセット上の人間の判断と有望な.404ピアソン相関を達成している。
論文 参考訳(メタデータ) (2022-10-25T17:09:08Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。