論文の概要: Validity Arguments For Constructed Response Scoring Using Generative Artificial Intelligence Applications
- arxiv url: http://arxiv.org/abs/2501.02334v1
- Date: Sat, 04 Jan 2025 16:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:10:12.331319
- Title: Validity Arguments For Constructed Response Scoring Using Generative Artificial Intelligence Applications
- Title(参考訳): 生成人工知能アプリケーションを用いた構成された応答スコーディングの妥当性保証
- Authors: Jodi M. Casabianca, Daniel F. McCaffrey, Matthew S. Johnson, Naim Alper, Vladimir Zubenko,
- Abstract要約: ジェネレーティブAIは、従来のAIスコアリングにおける手作り機能に必要な労力を減らすため、特に魅力的である。
我々は,人間の評価,特徴に基づく自然言語処理AIスコアリングエンジン,生成AIを用いたスコアリングシステムに必要な妥当性証拠を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rapid advancements in large language models and generative artificial intelligence (AI) capabilities are making their broad application in the high-stakes testing context more likely. Use of generative AI in the scoring of constructed responses is particularly appealing because it reduces the effort required for handcrafting features in traditional AI scoring and might even outperform those methods. The purpose of this paper is to highlight the differences in the feature-based and generative AI applications in constructed response scoring systems and propose a set of best practices for the collection of validity evidence to support the use and interpretation of constructed response scores from scoring systems using generative AI. We compare the validity evidence needed in scoring systems using human ratings, feature-based natural language processing AI scoring engines, and generative AI. The evidence needed in the generative AI context is more extensive than in the feature-based NLP scoring context because of the lack of transparency and other concerns unique to generative AI such as consistency. Constructed response score data from standardized tests demonstrate the collection of validity evidence for different types of scoring systems and highlights the numerous complexities and considerations when making a validity argument for these scores. In addition, we discuss how the evaluation of AI scores might include a consideration of how a contributory scoring approach combining multiple AI scores (from different sources) will cover more of the construct in the absence of human ratings.
- Abstract(参考訳): 大規模言語モデルと生成人工知能(AI)の能力の急速な進歩は、ハイテイクなテストコンテキストにおいて、より広範囲に応用する可能性を高めている。
構築された応答のスコアリングにおける生成AIの使用は、従来のAIスコアリングにおける手作り機能に必要な労力を減らし、それらの方法よりも優れる可能性があるため、特に魅力的である。
本研究の目的は、構築された応答スコアシステムにおける特徴ベースおよび生成AIアプリケーションの違いを強調し、生成AIを用いたスコアシステムからの構築された応答スコアの使用と解釈を支援するための妥当性証拠収集のためのベストプラクティスセットを提案することである。
我々は,人間の評価,特徴に基づく自然言語処理AIスコアリングエンジン,生成AIを用いたスコアリングシステムに必要な妥当性証拠を比較した。
生成AIコンテキストで必要となる証拠は、透明性の欠如や一貫性などの生成AI固有の関心事から、機能ベースのNLPスコアリングコンテキストよりも広い。
定式化試験から構成された応答スコアデータは,様々な種類のスコアシステムに対する妥当性証明の収集を実証し,これらのスコアに対する妥当性議論を行う際の複雑さと考慮点を強調した。
さらに、AIスコアの評価方法として、複数のAIスコア(異なる情報源から)を組み合わせたコントリビュータスコアアプローチが、人間の評価の欠如において、その構成をより多くカバーする方法について検討する。
関連論文リスト
- Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA [43.116608441891096]
人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。
GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-09T03:53:26Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文 参考訳(メタデータ) (2024-07-23T20:40:37Z) - Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text [4.902089836908786]
WhosAIは、与えられた入力テキストが人間かAIによって生成されたかを予測するために設計された3重ネットワークコントラスト学習フレームワークである。
提案するフレームワークは,チューリングテストとオーサリングの両タスクにおいて,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T15:44:56Z) - Understanding and Evaluating Human Preferences for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。
本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文 参考訳(メタデータ) (2024-05-12T17:45:11Z) - Psittacines of Innovation? Assessing the True Novelty of AI Creations [0.26107298043931204]
我々は、仮説的なクラウドファンディングキャンペーンのために、AIにプロジェクトタイトルの生成を任せる。
AI生成したプロジェクトタイトルで比較し、繰り返しと複雑さを測定します。
結果は、タスクの複雑さが増大しても、AIがユニークなコンテンツを生成することを示唆している。
論文 参考訳(メタデータ) (2024-03-17T13:08:11Z) - Generative AI in Writing Research Papers: A New Type of Algorithmic Bias
and Uncertainty in Scholarly Work [0.38850145898707145]
大規模言語モデル(LLM)と生成AIツールは、バイアスを特定し、対処する上での課題を提示している。
生成型AIツールは、不正な一般化、幻覚、レッド・チーム・プロンプトのような敵攻撃を目標とする可能性がある。
研究原稿の執筆過程に生成AIを組み込むことで,新しいタイプの文脈依存型アルゴリズムバイアスがもたらされることがわかった。
論文 参考訳(メタデータ) (2023-12-04T04:05:04Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Measuring the Complexity of Domains Used to Evaluate AI Systems [0.48951183832371004]
本稿では,様々な領域間の複雑性を測定するための理論を提案する。
この測定の応用は、様々な状況におけるツールとしての有効性を示すために示される。
本稿では,AIシステムのインテリジェンスを計算するために,このような複雑性メトリクスの今後の利用を提案する。
論文 参考訳(メタデータ) (2020-09-18T21:53:07Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。