論文の概要: Integration of Artificial Intelligence in Educational Measurement: Efficacy of ChatGPT in Data Generation within the Scope of Item Response Theory
- arxiv url: http://arxiv.org/abs/2402.01731v2
- Date: Wed, 3 Jul 2024 18:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 00:03:17.255737
- Title: Integration of Artificial Intelligence in Educational Measurement: Efficacy of ChatGPT in Data Generation within the Scope of Item Response Theory
- Title(参考訳): 教育計測における人工知能の統合:項目応答理論の範囲内におけるデータ生成におけるChatGPTの有効性
- Authors: Hatice Gurdil, Yesim Beril Soguksu, Salih Salihoglu, Fatma Coskun,
- Abstract要約: 本研究の目的は,項目応答理論(IRT)の枠組みにおけるデータ生成アルゴリズム開発におけるChatGPT 3.5の有効性を検討することである。
ChatGPT 3.5はIRTの仮定に合致するデータを生成するのにかなり成功したが、研究者によって開発されたアルゴリズムと比較して項目パラメータのシミュレーション条件を満たすのに効果が低いと判断された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of this study is to investigate the effectiveness of ChatGPT 3.5 in developing algorithms for data generation within the framework of Item Response Theory (IRT) using the R programming language. In this context, validity examinations were conducted on data sets generated according to the Two-Parameter Logistic Model (2PLM) with algorithms written by ChatGPT 3.5 and researchers. These examinations considered whether the data sets met the IRT assumptions and the simulation conditions of the item parameters. As a result, it was determined that while ChatGPT 3.5 was quite successful in generating data that met the IRT assumptions, it was less effective in meeting the simulation conditions of the item parameters compared to the algorithm developed by the researchers. In this regard, ChatGPT 3.5 is recommended as a useful tool that researchers can use in developing data generation algorithms for IRT.
- Abstract(参考訳): 本研究の目的は,R言語を用いた項目応答理論(IRT)フレームワークにおけるデータ生成アルゴリズムの開発におけるChatGPT 3.5の有効性を検討することである。
この文脈では,ChatGPT 3.5 と研究者らによるアルゴリズムを用いて,2PLM (Two-Parameter Logistic Model) に基づいて生成されたデータセットに対する妥当性検証を行った。
これらの調査では、データセットがIRTの仮定と項目パラメータのシミュレーション条件を満たしているかどうかを検討した。
その結果, ChatGPT 3.5 は IRT の仮定に合致したデータを生成するのにかなり成功したが, パラメータのシミュレーション条件を満たすには, 研究者が開発したアルゴリズムに比べて効果が低かった。
この点に関してChatGPT 3.5は、IRTのデータ生成アルゴリズムの開発に研究者が利用できる便利なツールとして推奨されている。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Telco-DPR: A Hybrid Dataset for Evaluating Retrieval Models of 3GPP Technical Specifications [0.8999666725996975]
本稿では,第3世代パートナーシッププロジェクト技術文書を用いた通信分野を対象としたQAシステムを提案する。
テキストとテーブルを組み合わせたハイブリッドデータセットであるTelco-DPRが提示され、一連の合成質問/回答ペアが含まれている。
トップK精度と平均相反ランク(MRR)を用いて、検索モデルの評価と比較を行う。
提案するQAシステムは,改良されたRAGモデルと生成事前学習変換器(GPT)-4を用いて,解答精度を14%向上させる。
論文 参考訳(メタデータ) (2024-10-15T16:37:18Z) - Assessing the Impact of Prompting Methods on ChatGPT's Mathematical
Capabilities [5.362057681411727]
本研究は,大規模言語モデル(LLM)の数学的推論能力を高める手法の有効性を批判的に評価する。
この分析はOpenAIのLLMであるChatGPT-3.5上で,MATH, GSM8K, MMLUデータセットからの広範な問題集合に対して行われる。
予想とは対照的に,本研究では,ChatGPT-3.5のベースライン性能に対して検討した手法が常に改善されていないことを実証分析により明らかにした。
論文 参考訳(メタデータ) (2023-12-22T17:39:40Z) - Generative AI for Hate Speech Detection: Evaluation and Findings [11.478263835391436]
生成AIは、大量の合成ヘイトスピーチシーケンスを生成するために利用されてきた。
本章では,本手法の方法論,実験的設定,評価について概説する。
GPT-3.5やそれ以降のモデルの感度は、テキスト生成の類似技術を用いて改善できるのかという疑問が浮かび上がっている。
論文 参考訳(メタデータ) (2023-11-16T16:09:43Z) - Is ChatGPT a game changer for geocoding -- a benchmark for geocoding
address parsing techniques [3.759936323189418]
実運用におけるジオコーディングシステムの実際の入力ログから抽出した人間の入力パターンに基づいて合成された低品質アドレス記述のベンチマークデータセットを提案する。
このデータセットには21の異なる入力エラーとバリエーションがあり、アメリカ50州とワシントンD.C.の通りから一意に選択された239,000以上のアドレス記録が含まれている。
アドレス成分抽出におけるGPT-3モデルの性能を,トランスフォーマーベースモデルとLSTMベースモデルとを比較して評価する。
論文 参考訳(メタデータ) (2023-10-22T17:03:56Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT [2.320417845168326]
本稿では,大規模な生成言語モデルであるChatGPTから得られたデータを用いて,低リソースシナリオにおけるデータ拡張を目的とした合成トレーニングデータを生成する。
タスク固有のChatGPTプロンプトによって、そのようなデータ拡張に対して最も一般的なアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:07:29Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。