Fugu-MT 論文翻訳(概要): Evaluating Large Language Models for automatic analysis of teacher simulations

論文の概要: Evaluating Large Language Models for automatic analysis of teacher simulations

arxiv url: http://arxiv.org/abs/2407.20360v1
Date: Mon, 29 Jul 2024 18:19:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 18:58:28.629699
Title: Evaluating Large Language Models for automatic analysis of teacher simulations
Title（参考訳）: 教師シミュレーションの自動解析のための大規模言語モデルの評価
Authors: David de-Fitero-Dominguez, Mariano Albaladejo-González, Antonio Garcia-Cabot, Eva Garcia-Lopez, Antonio Moreno-Cediel, Erin Barno, Justin Reich,
Abstract要約: デジタルシミュレーション(DS)は、ユーザーが会話のプロンプトを通じてエージェントと対話する安全な環境を提供する。教員教育におけるDSの応答特性(ユーザ行動)を明らかにするため,Large Language Models (LLMs) の評価を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Digital Simulations (DS) provide safe environments where users interact with an agent through conversational prompts, providing engaging learning experiences that can be used to train teacher candidates in realistic classroom scenarios. These simulations usually include open-ended questions, allowing teacher candidates to express their thoughts but complicating an automatic response analysis. To address this issue, we have evaluated Large Language Models (LLMs) to identify characteristics (user behaviors) in the responses of DS for teacher education. We evaluated the performance of DeBERTaV3 and Llama 3, combined with zero-shot, few-shot, and fine-tuning. Our experiments discovered a significant variation in the LLMs' performance depending on the characteristic to identify. Additionally, we noted that DeBERTaV3 significantly reduced its performance when it had to identify new characteristics. In contrast, Llama 3 performed better than DeBERTaV3 in detecting new characteristics and showing more stable performance. Therefore, in DS where teacher educators need to introduce new characteristics because they change depending on the simulation or the educational objectives, it is more recommended to use Llama 3. These results can guide other researchers in introducing LLMs to provide the highly demanded automatic evaluations in DS.
Abstract（参考訳）: デジタルシミュレーション(DS)は、ユーザーが会話のプロンプトを通じてエージェントと対話する安全な環境を提供し、現実的な教室シナリオで教師候補を訓練するのに使用できる、魅力的な学習体験を提供する。これらのシミュレーションには、通常オープンエンドの質問が含まれており、教師候補が自分の考えを表現できるが、自動応答分析を複雑にすることができる。この問題に対処するため,教師教育におけるDSの応答特性(ユーザ行動)を明らかにするために,Large Language Models (LLMs) の評価を行った。 DeBERTaV3 と Llama 3 の性能をゼロショット, 少数ショット, 微調整と組み合わせて評価した。実験の結果,LLMの性能は識別する特性によって大きく異なることがわかった。さらに、DeBERTaV3は、新しい特徴を識別する必要のある場合、性能を著しく低下させました。対照的に、Llama 3はDeBERTaV3よりも新しい特性を検出し、より安定した性能を示した。したがって、シミュレーションや教育目的によって変化するため、教師教育者が新たな特徴を導入する必要があるDSでは、Llama 3の使用がより推奨される。これらの結果は、DSの高度に要求された自動評価を提供するために、LSMの導入に他の研究者を導くことができる。

関連論文リスト

Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文参考訳（メタデータ） (2025-07-28T23:50:09Z)
Can LLMs Reliably Simulate Real Students' Abilities in Mathematics and Reading Comprehension? [8.558834738072363]
大規模言語モデル (LLMs) は、知能学習システム (ITSs) の開発において、代用学生としての利用が増えている。我々は,4,8,12の数学と読解に関する全国教育進歩評価(NAEP)から,489項目のデータセットを収集した。本研究では,11種類の多種多様かつ最先端のLLMを実生と同じ能力尺度に位置づけるために,IRTモデルを適用した。
論文参考訳（メタデータ） (2025-07-11T00:36:57Z)
EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving [61.99289768925256]
EvaLearnは、大きな言語モデル(LLM)を学習能力と課題の効率性を評価するために設計されたベンチマークである。 9つのフロンティアモデルをベンチマークし、様々な性能プロファイルを観察する。静的能力の強い現在のLLMは、全てのタスクにおいて学習能力に明らかな優位性を示すものではない。
論文参考訳（メタデータ） (2025-06-03T09:18:33Z)
Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection [6.471199527741301]
VDS-TTT(Verifier-Driven Sample Selection for Test-Time Training)と呼ばれる新しいフレームワークを導入する。学習した検証器を用いて、生成された応答のプールをスコアし、高いランクの擬似ラベル付き例からのみ選び、微調整を施す。低ランクなLoRAアダプタパラメータのみを微調整し、適応効率と高速収束を確保する。
論文参考訳（メタデータ） (2025-05-26T03:54:47Z)
Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文参考訳（メタデータ） (2025-04-07T23:57:32Z)
Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。 GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-18T23:38:21Z)
(WhyPHI) Fine-Tuning PHI-3 for Multiple-Choice Question Answering: Methodology, Results, and Challenges [0.0]
この研究は、マイクロソフトのPHI-3citeAbdin2024(コンパクトで効率的で複数の質問に答えるLLM)の可能性を探るものである。 PHI-3.5のMCQ処理は4.68から2.27に減少し、精度は62%から90.8%に向上した。
論文参考訳（メタデータ） (2025-01-03T00:56:46Z)
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文参考訳（メタデータ） (2024-12-16T09:47:43Z)
Automated Feedback in Math Education: A Comparative Analysis of LLMs for Open-Ended Responses [0.0]
本研究では,大規模言語モデル(LLM)が数学教育における自動フィードバックを促進する可能性を探究することを目的とする。我々は,Llamaの数学版であるMistralを採用し,このモデルを用いて,中学校数学問題に対する生徒の回答と教師によるフィードバックのデータセットを活用することによって,学生の反応を評価する。 2人の教師の判断を生かして,評価精度とフィードバックの質を評価する。
論文参考訳（メタデータ） (2024-10-29T16:57:45Z)
Students Rather Than Experts: A New AI For Education Pipeline To Model More Human-Like And Personalised Early Adolescences [11.576679362717478]
本研究は,仮想学生エージェントをモデル化するための文脈としての言語学習に焦点を当てた。教師と生徒の個人的交流のデータセットを様々な性格特性でキュレートすることにより,多次元的評価実験を行う。
論文参考訳（メタデータ） (2024-10-21T07:18:24Z)
Dual Test-time Training for Out-of-distribution Recommender System [91.15209066874694]
DT3ORと呼ばれるOODレコメンデーションのための新しいDual Test-Time-Trainingフレームワークを提案する。 DT3ORでは、テスト期間中にモデル適応機構を導入し、リコメンデーションモデルを慎重に更新する。我々の知る限りでは、テストタイムトレーニング戦略を通じてOODレコメンデーションに対処する最初の研究である。
論文参考訳（メタデータ） (2024-07-22T13:27:51Z)
LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。 LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文参考訳（メタデータ） (2024-05-23T18:21:59Z)
Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。 AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文参考訳（メタデータ） (2024-05-07T17:05:27Z)
Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文参考訳（メタデータ） (2024-05-01T16:13:54Z)
Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文参考訳（メタデータ） (2024-03-02T20:25:50Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文参考訳（メタデータ） (2023-01-24T11:00:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。