論文の概要: Constructing a Question-Answering Simulator through the Distillation of LLMs
- arxiv url: http://arxiv.org/abs/2509.09226v1
- Date: Thu, 11 Sep 2025 07:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.281088
- Title: Constructing a Question-Answering Simulator through the Distillation of LLMs
- Title(参考訳): LLMの蒸留による質問応答シミュレータの構築
- Authors: Haipeng Liu, Ting Long, Jing Fu,
- Abstract要約: 質問応答シミュレータ (QA) は、学生の実際の学習行動を模倣し、質問に対する回答の正しさを予測するモデルである。
QAシミュレータは、実際の学生と対話することなく、教育推薦システム(ERS)が大量のトレーニングデータを収集することを可能にする。
そこで本研究では, LLMからドメイン知識と推論能力を蒸留し, 予測支援を行うLDSim (LLM Distillation Based Simulator) を提案する。
- 参考スコア(独自算出の注目度): 4.573445061106203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The question-answering (QA) simulator is a model that mimics real student learning behaviors and predicts their correctness of their responses to questions. QA simulators enable educational recommender systems (ERS) to collect large amounts of training data without interacting with real students, thereby preventing harmful recommendations made by an undertrained ERS from undermining actual student learning. Given the QA history, there are two categories of solutions to predict the correctness, conducting the simulation: (1) LLM-free methods, which apply a traditional sequential model to transfer the QA history into a vector representation first, and make predictions based on the representation; (2) LLM-based methods, which leverage the domain knowledge and reasoning capability of LLM to enhence the prediction. LLM-free methods offer fast inference but generally yield suboptimal performance. In contrast, most LLM-based methods achieve better results, but at the cost of slower inference speed and higher GPU memory consumption. In this paper, we propose a method named LLM Distillation based Simulator (LDSim), which distills domain knowledge and reasoning capability from an LLM to better assist prediction, thereby improving simulation performance. Extensive experiments demonstrate that our LDSim achieves strong results on both the simulation task and the knowledge tracing (KT) task. Our code is publicly available at https://anonymous.4open.science/r/LDSim-05A9.
- Abstract(参考訳): 質問応答シミュレータ (QA) は、学生の実際の学習行動を模倣し、質問に対する回答の正しさを予測するモデルである。
QAシミュレータは、実際の学生と対話することなく、教育推薦システム(ERS)が大量のトレーニングデータを収集することを可能にし、未学習のERSによる有害なレコメンデーションが実際の生徒の学習を損なうのを防ぐ。
1)QA履歴をベクトル表現に転送する従来の逐次モデルを適用し,その表現に基づいて予測を行う LLM-free法,(2)LLMのドメイン知識と推論能力を活用して予測を行う LLM-based method である。
LLMフリーメソッドは高速な推論を提供するが、一般に準最適性能をもたらす。
対照的に、ほとんどのLCMベースの手法はより良い結果を得るが、推論速度を遅くし、GPUメモリ消費を高くするコストがかかる。
本稿では, LLM からドメイン知識と推論能力を蒸留し, 予測支援を向上し, シミュレーション性能を向上させる LLM 蒸留ベースシミュレータ (LDSim) を提案する。
シミュレーションタスクと知識追跡(KT)タスクの両方において,LDSimが強い結果をもたらすことを示す。
私たちのコードはhttps://anonymous.4open.science/r/LDSim-05A9.comで公開されています。
関連論文リスト
- ShiQ: Bringing back Bellman to LLMs [37.70964838115103]
実装が簡単でありながら、非政治的でトークンに関する学習をサポートする実用的なアルゴリズムである ShiQ for Shifted-Q を構築します。
合成データと実世界のベンチマーク(UltraFeedbackやBFCL-V3など)でShiQを評価し、シングルターンLLMとマルチターンLLMの両方での有効性を実証した。
論文 参考訳(メタデータ) (2025-05-16T10:12:11Z) - Can LLMs Simulate Personas with Reversed Performance? A Benchmark for Counterfactual Instruction Following [12.145213376813155]
大規模言語モデル(LLM)は、仮想環境におけるペルソナのシミュレートに広く使われている。
現状のLLMでさえ、逆性能のペルソナをシミュレートできないことを示す。
論文 参考訳(メタデータ) (2025-04-08T22:00:32Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments [1.4999444543328293]
学習者の行動のシミュレーションは、ストレステストのオープンエンドな対話型学習環境を支援し、デプロイ前に新しい適応のプロトタイプを作成する。
我々は,学習者行動に関する検証可能な仮説を組み合わせることで,専門家がシミュレーションを開発し,評価できるシミュレーションオーサリングフレームワークHyp-Mixを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:25:40Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。