論文の概要: From Feature-Based Models to Generative AI: Validity Evidence for Constructed Response Scoring
- arxiv url: http://arxiv.org/abs/2603.19280v1
- Date: Sun, 01 Mar 2026 23:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.830817
- Title: From Feature-Based Models to Generative AI: Validity Evidence for Constructed Response Scoring
- Title(参考訳): 特徴ベースモデルから生成AIへ:構成された応答スコーリングの妥当性検証
- Authors: Jodi M. Casabianca, Daniel F. McCaffrey, Matthew S. Johnson, Naim Alper, Vladimir Zubenko,
- Abstract要約: 我々は,人間の評価,特徴に基づく自然言語処理AIスコアリングエンジン,生成AIを用いたスコアリングシステムに必要な妥当性証拠を比較した。
生成AIコンテキストで必要となる証拠は、透明性の欠如や一貫性などの生成AIに固有の懸念があるため、機能ベースのスコアリングコンテキストよりも広い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid advancements in large language models and generative artificial intelligence (AI) capabilities are making their broad application in the high-stakes testing context more likely. Use of generative AI in the scoring of constructed responses is particularly appealing because it reduces the effort required for handcrafting features in traditional AI scoring and might even outperform those methods. The purpose of this paper is to highlight the differences in the feature-based and generative AI applications in constructed response scoring systems and propose a set of best practices for the collection of validity evidence to support the use and interpretation of constructed response scores from scoring systems using generative AI. We compare the validity evidence needed in scoring systems using human ratings, feature-based natural language processing AI scoring engines, and generative AI. The evidence needed in the generative AI context is more extensive than in the feature-based scoring context because of the lack of transparency and other concerns unique to generative AI such as consistency. Constructed response score data from a large corpus of independent argumentative essays written by 6-12th grade students demonstrate the collection of validity evidence for different types of scoring systems and highlight the numerous complexities and considerations when making a validity argument for these scores.
- Abstract(参考訳): 大規模言語モデルと生成人工知能(AI)の能力の急速な進歩は、ハイテイクなテストコンテキストにおいて、より広範囲に応用する可能性を高めている。
構築された応答のスコアリングにおける生成AIの使用は、従来のAIスコアリングにおける手作り機能に必要な労力を減らし、それらの方法よりも優れる可能性があるため、特に魅力的である。
本研究の目的は、構築された応答スコアシステムにおける特徴ベースおよび生成AIアプリケーションの違いを強調し、生成AIを用いたスコアシステムからの構築された応答スコアの使用と解釈を支援するための妥当性証拠収集のためのベストプラクティスセットを提案することである。
我々は,人間の評価,特徴に基づく自然言語処理AIスコアリングエンジン,生成AIを用いたスコアリングシステムに必要な妥当性証拠を比較した。
生成AIコンテキストで必要とされる証拠は、透明性の欠如や一貫性のような生成AI固有の関心事により、機能ベースのスコアリングコンテキストよりもはるかに広範囲である。
6~12年生による独立系論評論文の大規模コーパスから構成した回答スコアデータは,様々な種類の採点システムに対する妥当性証拠の収集を実証し,これらの採点に対する妥当性議論を行う際の複雑さと考慮点を強調した。
関連論文リスト
- The next question after Turing's question: Introducing the Grow-AI test [51.56484100374058]
本研究は,GROW-AIと呼ばれる人工知能評価の枠組みを拡張することを目的としている。
GROW-AIは、チューリングテストの自然な後継者である"Can Machine grow up?
この作品の独創性は、人間の世界から人工知能への「成長」過程の概念的な変換にある。
論文 参考訳(メタデータ) (2025-08-22T10:19:42Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Are Large Language Models Ready for Business Integration? A Study on Generative AI Adoption [0.6144680854063939]
本研究では,Google Geminiのような他の大規模言語モデル(LLM)のビジネスアプリケーションへの適用性について検討する。
ディズニーランドの異なる支店からの42,654件のレビューデータセットが採用された。
その結果、75%の成功率、25%のエラー、モデル自己参照の事例など、反応のスペクトルが示された。
論文 参考訳(メタデータ) (2025-01-28T21:01:22Z) - Validity Arguments For Constructed Response Scoring Using Generative Artificial Intelligence Applications [0.0]
ジェネレーティブAIは、従来のAIスコアリングにおける手作り機能に必要な労力を減らすため、特に魅力的である。
我々は,人間の評価,特徴に基づく自然言語処理AIスコアリングエンジン,生成AIを用いたスコアリングシステムに必要な妥当性証拠を比較した。
論文 参考訳(メタデータ) (2025-01-04T16:59:29Z) - AI-generated Essays: Characteristics and Implications on Automated Scoring and Academic Integrity [13.371946973050845]
我々は、人気のある大言語モデル(LLM)によって生成されるエッセイの特徴と品質を検証し、ベンチマークする。
本研究は,既存の自動スコアリングシステムの限界を強調し,改善すべき領域を特定した。
LLMの多種多様さがAI生成エッセイの検出の可能性を損なう可能性があるという懸念にもかかわらず、我々の研究結果は、あるモデルから生成されたエッセイに基づいて訓練された検出器が、高い精度で他人のテキストを識別できることをしばしば示している。
論文 参考訳(メタデータ) (2024-10-22T21:30:58Z) - Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text [4.902089836908786]
WhosAIは、与えられた入力テキストが人間かAIによって生成されたかを予測するために設計された3重ネットワークコントラスト学習フレームワークである。
提案するフレームワークは,チューリングテストとオーサリングの両タスクにおいて,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T15:44:56Z) - Psittacines of Innovation? Assessing the True Novelty of AI Creations [0.26107298043931204]
我々は、仮説的なクラウドファンディングキャンペーンのために、AIにプロジェクトタイトルの生成を任せる。
AI生成したプロジェクトタイトルで比較し、繰り返しと複雑さを測定します。
結果は、タスクの複雑さが増大しても、AIがユニークなコンテンツを生成することを示唆している。
論文 参考訳(メタデータ) (2024-03-17T13:08:11Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - A general framework for scientifically inspired explanations in AI [76.48625630211943]
我々は、AIシステムの説明を実装可能な一般的なフレームワークの理論的基盤として、科学的説明の構造の概念をインスタンス化する。
このフレームワークは、AIシステムの"メンタルモデル"を構築するためのツールを提供することを目的としている。
論文 参考訳(メタデータ) (2020-03-02T10:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。