論文の概要: Comparing Human and AI Rater Effects Using the Many-Facet Rasch Model
- arxiv url: http://arxiv.org/abs/2505.18486v2
- Date: Wed, 28 May 2025 20:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.71593
- Title: Comparing Human and AI Rater Effects Using the Many-Facet Rasch Model
- Title(参考訳): many-facet Raschモデルを用いた人間とAIのラスタ効果の比較
- Authors: Hong Jiao, Dan Song, Won-Chan Lee,
- Abstract要約: 大規模言語モデル (LLM) は, ローテイク評価において, 自動スコアリングのために広く研究されている。
本研究は,10個のLDMと人間専門家による2種類の筆記課題を比較検討した。
結果は、ChatGPT 4o、Gemini 1.5 Pro、Claude 3.5 Sonnetの使用を高いスコアリング精度、より高いレーダ信頼性、より低いレーダ効果でサポートした。
- 参考スコア(独自算出の注目度): 2.5163150839708948
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have been widely explored for automated scoring in low-stakes assessment to facilitate learning and instruction. Empirical evidence related to which LLM produces the most reliable scores and induces least rater effects needs to be collected before the use of LLMs for automated scoring in practice. This study compared ten LLMs (ChatGPT 3.5, ChatGPT 4, ChatGPT 4o, OpenAI o1, Claude 3.5 Sonnet, Gemini 1.5, Gemini 1.5 Pro, Gemini 2.0, as well as DeepSeek V3, and DeepSeek R1) with human expert raters in scoring two types of writing tasks. The accuracy of the holistic and analytic scores from LLMs compared with human raters was evaluated in terms of Quadratic Weighted Kappa. Intra-rater consistency across prompts was compared in terms of Cronbach Alpha. Rater effects of LLMs were evaluated and compared with human raters using the Many-Facet Rasch model. The results in general supported the use of ChatGPT 4o, Gemini 1.5 Pro, and Claude 3.5 Sonnet with high scoring accuracy, better rater reliability, and less rater effects.
- Abstract(参考訳): ラージ言語モデル (LLM) は, 学習と指導を容易にするため, ローテイク評価において, 自動スコアリングのために広く研究されている。
LLMが最も信頼性の高いスコアを生成し、実際に自動スコアにLLMを使用する前に最小利率効果を収集する必要があるという実証的な証拠がある。
本研究は10個のLCM(ChatGPT 3.5, ChatGPT 4, ChatGPT 4o, OpenAI o1, Claude 3.5 Sonnet, Gemini 1.5, Gemini 1.5 Pro, Gemini 2.0)とDeepSeek V3とDeepSeek R1を比較した。
擬似重みカッパを用いて, LLMの総合的, 解析的スコアの精度を評価した。
プロンプト間のラター内一貫性をCronbach Alphaで比較した。
Many-Facet Raschモデルを用いて, LLMのラター効果を評価・比較した。
結果は、ChatGPT 4o、Gemini 1.5 Pro、Claude 3.5 Sonnetの使用を高いスコアリング精度、より高いレーダ信頼性、より低いレーダ効果でサポートした。
関連論文リスト
- Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。
ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T04:05:45Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation [29.718851249656172]
大規模言語モデル(LLM)は、一貫性、スケーラビリティ、コスト効率の面で魅力的な代替手段である。
ACORNは3500のフリーテキストの説明とアスペクトワイドの品質評価のデータセットである。
論文 参考訳(メタデータ) (2024-05-08T05:36:52Z) - Performance Assessment of ChatGPT vs Bard in Detecting Alzheimer's
Dementia [2.2843885788439797]
3つの大きな言語モデル(LLM)は、アルツハイマー認知症(AD)と認知正常(CN)を認識できる能力で評価される。
ゼロショット学習アプローチは、2つのレベルの独立したクエリで使用される。
各LSMの性能は、精度、感度、特異性、精度、F1スコアで生成された予測に基づいて評価される。
論文 参考訳(メタデータ) (2024-01-30T07:55:43Z) - Exploring Qualitative Research Using LLMs [8.545798128849091]
この研究は、人間とAIが駆動する大規模言語モデルの理解能力を比較し、比較することを目的としている。
私たちはAlexaアプリのレビューの小さなサンプルを使って実験を行い、最初は人間のアナリストによって分類された。
LLMはこれらのレビューを分類し、それぞれの分類の背後にある理由を提供するよう求められた。
論文 参考訳(メタデータ) (2023-06-23T05:21:36Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。