論文の概要: Toward Subtrait-Level Model Explainability in Automated Writing Evaluation
- arxiv url: http://arxiv.org/abs/2509.08345v1
- Date: Wed, 10 Sep 2025 07:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.340928
- Title: Toward Subtrait-Level Model Explainability in Automated Writing Evaluation
- Title(参考訳): 自動筆記評価におけるサブトランジットレベルモデル説明可能性に向けて
- Authors: Alejandro Andrade-Lotero, Lee Becker, Joshua Southerland, Scott Hellman,
- Abstract要約: Subtrait (latent-trait component) の評価は、自動筆記スコアの透明性を高めるための有望な道を示す。
生成言語モデルによる説明可能性とサブトレーサビリティの試作を行い,ヒトのサブトレーサビリティと形質スコア,および自動と人間のサブトレーサスコアのモデスト相関を示す。
- 参考スコア(独自算出の注目度): 36.94429692322632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subtrait (latent-trait components) assessment presents a promising path toward enhancing transparency of automated writing scores. We prototype explainability and subtrait scoring with generative language models and show modest correlation between human subtrait and trait scores, and between automated and human subtrait scores. Our approach provides details to demystify scores for educators and students.
- Abstract(参考訳): Subtrait (latent-trait component) の評価は、自動筆記スコアの透明性を高めるための有望な道を示す。
生成言語モデルによる説明可能性とサブトレーサビリティの試作を行い,ヒトのサブトレーサビリティと形質スコア,および自動と人間のサブトレーサスコアのモデスト相関を示す。
我々のアプローチは、教育者や学生のスコアをデミスティフィケーションするための詳細を提供する。
関連論文リスト
- Exploring the Robustness of Model-Graded Evaluations and Automated
Interpretability [0.0]
グラデーションに対する自然言語理解に依存した評価は、他の言語モデルを使用することで、大規模に行うことができる。
モデルグレード評価のロバストさを、新しい認識方程式を含む異なるデータセットに対するインジェクションで検証する。
将来、よりインテリジェントなモデルが、彼らの評価モデルを操作したり、協力したりする可能性があると説明します。
論文 参考訳(メタデータ) (2023-11-26T17:11:55Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Towards Interpretable Summary Evaluation via Allocation of Contextual
Embeddings to Reference Text Topics [1.5749416770494706]
多面的解釈可能な要約評価法(MISEM)は、要約の文脈トークンの埋め込みを、参照テキストで特定されたセマンティックトピックに割り当てることに基づいている。
MISEMはTAC'08データセット上の人間の判断と有望な.404ピアソン相関を達成している。
論文 参考訳(メタデータ) (2022-10-25T17:09:08Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Saliency Map Verbalization: Comparing Feature Importance Representations
from Model-free and Instruction-based Methods [6.018950511093273]
サージェンシマップは、重要な入力特徴を特定することによって、ニューラルネットワークの予測を説明することができる。
我々は,サリエンシマップを自然言語に翻訳する未調査課題を定式化する。
本研究では,従来の特徴強調表現と比較した2つの新手法(検索ベースおよび命令ベース言語化)を比較した。
論文 参考訳(メタデータ) (2022-10-13T17:48:15Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。