論文の概要: Integration of Artificial Intelligence in Educational Measurement: Efficacy of ChatGPT in Data Generation within the Scope of Item Response Theory
- arxiv url: http://arxiv.org/abs/2402.01731v2
- Date: Wed, 3 Jul 2024 18:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 00:03:17.255737
- Title: Integration of Artificial Intelligence in Educational Measurement: Efficacy of ChatGPT in Data Generation within the Scope of Item Response Theory
- Title(参考訳): 教育計測における人工知能の統合:項目応答理論の範囲内におけるデータ生成におけるChatGPTの有効性
- Authors: Hatice Gurdil, Yesim Beril Soguksu, Salih Salihoglu, Fatma Coskun,
- Abstract要約: 本研究の目的は,項目応答理論(IRT)の枠組みにおけるデータ生成アルゴリズム開発におけるChatGPT 3.5の有効性を検討することである。
ChatGPT 3.5はIRTの仮定に合致するデータを生成するのにかなり成功したが、研究者によって開発されたアルゴリズムと比較して項目パラメータのシミュレーション条件を満たすのに効果が低いと判断された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of this study is to investigate the effectiveness of ChatGPT 3.5 in developing algorithms for data generation within the framework of Item Response Theory (IRT) using the R programming language. In this context, validity examinations were conducted on data sets generated according to the Two-Parameter Logistic Model (2PLM) with algorithms written by ChatGPT 3.5 and researchers. These examinations considered whether the data sets met the IRT assumptions and the simulation conditions of the item parameters. As a result, it was determined that while ChatGPT 3.5 was quite successful in generating data that met the IRT assumptions, it was less effective in meeting the simulation conditions of the item parameters compared to the algorithm developed by the researchers. In this regard, ChatGPT 3.5 is recommended as a useful tool that researchers can use in developing data generation algorithms for IRT.
- Abstract(参考訳): 本研究の目的は,R言語を用いた項目応答理論(IRT)フレームワークにおけるデータ生成アルゴリズムの開発におけるChatGPT 3.5の有効性を検討することである。
この文脈では,ChatGPT 3.5 と研究者らによるアルゴリズムを用いて,2PLM (Two-Parameter Logistic Model) に基づいて生成されたデータセットに対する妥当性検証を行った。
これらの調査では、データセットがIRTの仮定と項目パラメータのシミュレーション条件を満たしているかどうかを検討した。
その結果, ChatGPT 3.5 は IRT の仮定に合致したデータを生成するのにかなり成功したが, パラメータのシミュレーション条件を満たすには, 研究者が開発したアルゴリズムに比べて効果が低かった。
この点に関してChatGPT 3.5は、IRTのデータ生成アルゴリズムの開発に研究者が利用できる便利なツールとして推奨されている。
関連論文リスト
- MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - On Fusing ChatGPT and Ensemble Learning in Discon-tinuous Named Entity Recognition in Health Corpora [0.0]
アンサンブル法における調停器としてのChatGPTの統合について検討し,DNERタスクの性能向上を目的とした。
提案手法は,5つの最先端NERモデルとChatGPTを組み合わせたカスタムプロンプトエンジニアリングを用いて,アンサンブルアルゴリズムの堅牢性と一般化能力を評価する。
その結果,ChatGPTとアンサンブル学習アルゴリズムの融合はCADEC,ShARe13,ShARe14データセットにおいてSOTAよりも優れていた。
論文 参考訳(メタデータ) (2024-12-22T11:26:49Z) - Automated Literature Review Using NLP Techniques and LLM-Based Retrieval-Augmented Generation [0.0]
本研究では,NLP(Natural Language Processing)技術とLarge Language Model(LLM)を用いたRAG(Research-augmented Generation)を用いて,複数の文献レビューの自動生成手法を提示し,比較する。
周波数ベースの手法(spaCy)、トランスフォーマーモデル(Simple T5)、大規模言語モデル(GPT-3.5-turbo)を用いた検索拡張生成(RAG)など、いくつかの自然言語処理(NLP)戦略の有効性を評価する。
論文 参考訳(メタデータ) (2024-11-27T18:27:07Z) - The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Assessing the Impact of Prompting Methods on ChatGPT's Mathematical
Capabilities [5.362057681411727]
本研究は,大規模言語モデル(LLM)の数学的推論能力を高める手法の有効性を批判的に評価する。
この分析はOpenAIのLLMであるChatGPT-3.5上で,MATH, GSM8K, MMLUデータセットからの広範な問題集合に対して行われる。
予想とは対照的に,本研究では,ChatGPT-3.5のベースライン性能に対して検討した手法が常に改善されていないことを実証分析により明らかにした。
論文 参考訳(メタデータ) (2023-12-22T17:39:40Z) - Generative AI for Hate Speech Detection: Evaluation and Findings [11.478263835391436]
生成AIは、大量の合成ヘイトスピーチシーケンスを生成するために利用されてきた。
本章では,本手法の方法論,実験的設定,評価について概説する。
GPT-3.5やそれ以降のモデルの感度は、テキスト生成の類似技術を用いて改善できるのかという疑問が浮かび上がっている。
論文 参考訳(メタデータ) (2023-11-16T16:09:43Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT [2.320417845168326]
本稿では,大規模な生成言語モデルであるChatGPTから得られたデータを用いて,低リソースシナリオにおけるデータ拡張を目的とした合成トレーニングデータを生成する。
タスク固有のChatGPTプロンプトによって、そのようなデータ拡張に対して最も一般的なアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:07:29Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。