論文の概要: Integrating AI in Educational Measurement: ChatGPT's Efficacy in Item
Response Theory Data Generation
- arxiv url: http://arxiv.org/abs/2402.01731v1
- Date: Sun, 28 Jan 2024 16:10:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:17:53.518172
- Title: Integrating AI in Educational Measurement: ChatGPT's Efficacy in Item
Response Theory Data Generation
- Title(参考訳): 教育計測におけるAIの統合: 項目応答理論データ生成におけるChatGPTの有効性
- Authors: Hatice Gurdil, Yesim Beril Soguksu, Salih Salihoglu, Fatma Coskun
- Abstract要約: ChatGPT (ChatGPT) は、R言語を用いてアイテム応答理論(IRT)のデータを生成するプログラムである。
本研究では一次元性や局所独立性といったIRTの仮定に対してChatGPTが生成したデータセットを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the efficacy of ChatGPT in generating data for Item
Response Theory (IRT) using the R programming language. Focusing on the 2
Parameter Logistic Model (2PLM), it evaluates datasets produced by ChatGPT
against several IRT assumptions like unidimensionality and local independence.
The study compares these datasets with those generated by researchers,
assessing compliance with simulation conditions, bias, and RMSE values. The
results indicate that while ChatGPT algorithms successfully generate data
adhering to IRT assumptions, they exhibit more issues with item parameter
compliance compared to researcher-generated algorithms. This study highlights
ChatGPT's potential in data generation, but also underscores the importance of
human expertise in guiding its outputs for scientific research.
- Abstract(参考訳): 本稿では,R言語を用いた項目応答理論(IRT)のデータ生成におけるChatGPTの有効性について検討する。
2パラメータロジスティックモデル(2plm)に着目し,chatgptが生成するデータセットを,一次元性や局所独立性といった複数のirt仮定に対して評価する。
この研究は、これらのデータセットと研究者が生成したデータセットを比較し、シミュレーション条件、バイアス、RMSE値のコンプライアンスを評価する。
その結果、ChatGPTアルゴリズムはIRTの仮定に固執したデータを生成することに成功したが、研究者が生成したアルゴリズムに比べ、アイテムパラメータのコンプライアンスに問題があることが示唆された。
この研究は、データ生成におけるChatGPTの可能性を強調しつつ、そのアウトプットを科学的研究に導く上での人間の専門知識の重要性を強調している。
関連論文リスト
- MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - On Fusing ChatGPT and Ensemble Learning in Discon-tinuous Named Entity Recognition in Health Corpora [0.0]
アンサンブル法における調停器としてのChatGPTの統合について検討し,DNERタスクの性能向上を目的とした。
提案手法は,5つの最先端NERモデルとChatGPTを組み合わせたカスタムプロンプトエンジニアリングを用いて,アンサンブルアルゴリズムの堅牢性と一般化能力を評価する。
その結果,ChatGPTとアンサンブル学習アルゴリズムの融合はCADEC,ShARe13,ShARe14データセットにおいてSOTAよりも優れていた。
論文 参考訳(メタデータ) (2024-12-22T11:26:49Z) - Automated Literature Review Using NLP Techniques and LLM-Based Retrieval-Augmented Generation [0.0]
本研究では,NLP(Natural Language Processing)技術とLarge Language Model(LLM)を用いたRAG(Research-augmented Generation)を用いて,複数の文献レビューの自動生成手法を提示し,比較する。
周波数ベースの手法(spaCy)、トランスフォーマーモデル(Simple T5)、大規模言語モデル(GPT-3.5-turbo)を用いた検索拡張生成(RAG)など、いくつかの自然言語処理(NLP)戦略の有効性を評価する。
論文 参考訳(メタデータ) (2024-11-27T18:27:07Z) - The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Assessing the Impact of Prompting Methods on ChatGPT's Mathematical
Capabilities [5.362057681411727]
本研究は,大規模言語モデル(LLM)の数学的推論能力を高める手法の有効性を批判的に評価する。
この分析はOpenAIのLLMであるChatGPT-3.5上で,MATH, GSM8K, MMLUデータセットからの広範な問題集合に対して行われる。
予想とは対照的に,本研究では,ChatGPT-3.5のベースライン性能に対して検討した手法が常に改善されていないことを実証分析により明らかにした。
論文 参考訳(メタデータ) (2023-12-22T17:39:40Z) - Generative AI for Hate Speech Detection: Evaluation and Findings [11.478263835391436]
生成AIは、大量の合成ヘイトスピーチシーケンスを生成するために利用されてきた。
本章では,本手法の方法論,実験的設定,評価について概説する。
GPT-3.5やそれ以降のモデルの感度は、テキスト生成の類似技術を用いて改善できるのかという疑問が浮かび上がっている。
論文 参考訳(メタデータ) (2023-11-16T16:09:43Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT [2.320417845168326]
本稿では,大規模な生成言語モデルであるChatGPTから得られたデータを用いて,低リソースシナリオにおけるデータ拡張を目的とした合成トレーニングデータを生成する。
タスク固有のChatGPTプロンプトによって、そのようなデータ拡張に対して最も一般的なアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:07:29Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。