論文の概要、ライセンス

# (参考訳) 適応教育のための質問生成 [全文訳有]

Question Generation for Adaptive Education ( http://arxiv.org/abs/2106.04262v1 )

ライセンス: CC BY 4.0
Megha Srivastava and Noah Goodman(参考訳) インテリジェントで適応的なオンライン教育システムは、様々な学生に高品質な教育を提供することを目的としている。 しかし、既存のシステムは通常、手作りの質問のプールに依存しており、個々の学生にどのように適応できるかを細部まで制限している。 制御可能なシーケンス生成タスクとして,対象の質問生成を探索する。 まず, 深層知識追跡(LM-KT)のための事前学習言語モデルを微調整する方法を示す。 このモデルは、質問に正しく答える学生の確率を正確に予測し、訓練中に見ない質問に一般化する。 次に、LM-KTを用いて、モデルの訓練対象とデータを特定し、学生に条件付き質問を生成し、難易度を目標とする。 この結果から,オンライン学習プラットフォームから第2言語学習者を対象とした言語翻訳質問を新たに作成することに成功した。

Intelligent and adaptive online education systems aim to make high-quality education available for a diverse range of students. However, existing systems usually depend on a pool of hand-made questions, limiting how fine-grained and open-ended they can be in adapting to individual students. We explore targeted question generation as a controllable sequence generation task. We first show how to fine-tune pre-trained language models for deep knowledge tracing (LM-KT). This model accurately predicts the probability of a student answering a question correctly, and generalizes to questions not seen in training. We then use LM-KT to specify the objective and data for training a model to generate questions conditioned on the student and target difficulty. Our results show we succeed at generating novel, well-calibrated language translation questions for second language learners from a real online education platform.
公開日: Tue, 8 Jun 2021 11:46:59 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Question Generation for Adaptive Education 適応教育のための質問生成 0.73
Megha Srivastava Stanford University Megha Srivastava スタンフォード大学 0.79
Noah Goodman Stanford University ノア・グッドマン・スタンフォード大学 0.56
megha@cs.stanford.ed u megha@cs.stanford.ed u 0.59
ngoodman@stanford.ed u ngoodman@stanford.ed u 0.78
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
1 v 2 6 2 4 0 1 v 2 6 2 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Intelligent and adaptive online education systems aim to make high-quality education available for a diverse range of students. 概要 インテリジェントで適応的なオンライン教育システムは、様々な学生に高品質な教育を提供することを目的としている。
訳抜け防止モード: 概要 インテリジェントで適応的なオンライン教育システム 高品質な教育を多様な学生に提供できるようにする。
0.62
However, existing systems usually depend on a pool of hand-made questions, limiting how finegrained and open-ended they can be in adapting to individual students. しかし、既存のシステムは通常、手作りの質問のプールに依存しており、個々の学生にどのように適応できるかを細部まで制限している。 0.57
We explore targeted question generation as a controllable sequence generation task. 制御可能なシーケンス生成タスクとして,対象の質問生成を探索する。 0.56
We first show how to fine-tune pre-trained language models for deep knowledge tracing (LM-KT). まず, 深層知識追跡(LM-KT)のための事前学習言語モデルを微調整する方法を示す。 0.64
This model accurately predicts the probability of a student answering a question correctly, and generalizes to questions not seen in training. このモデルは、質問に正しく答える学生の確率を正確に予測し、訓練中に見ない質問に一般化する。 0.74
We then use LM-KT to specify the objective and data for training a model to generate questions conditioned on the student and target difficulty. 次に、LM-KTを用いて、モデルの訓練対象とデータを特定し、学生に条件付き質問を生成し、難易度を目標とする。 0.61
Our results show we succeed at generating novel, wellcalibrated language translation questions for second language learners from a real online education platform. この結果から,オンライン学習プラットフォームから第2言語学習者を対象とした言語翻訳質問を新たに作成することに成功した。 0.67
Introduction 1 Online education platforms can increase the accessibility of educational resources around the world. はじめに 1 オンライン教育プラットフォームは、世界中の教育資源のアクセシビリティを高めることができる。 0.66
However, achieving equitable outcomes across diverse learning needs benefits from systems that are adaptive and individualized to each student (Doroudi and Brunskill, 2019). しかしながら、多様な学習にまたがる公平な成果を達成するには、各学生に適応して個別化されるシステム(Doroudi and Brunskill, 2019)の恩恵が必要である。 0.61
Traditionally, adaptive education methods involve planning over a pool of pre-made questions (Atkinson, 1972; Hunziker et al , 2018). 伝統的に、適応的な教育方法は、事前の質問のプールを計画する(atkinson, 1972; hunziker et al , 2018)。 0.71
These are naturally limited by the diversity and coverage of the pool, as well as the scaling capacity of curriculum planning algorithms. これらは当然、プールの多様性と範囲、およびカリキュラム計画アルゴリズムのスケーリング能力によって制限される。 0.77
Recent approaches, such as procedural generation for personalized programming games (Valls-Vargas et al , 2017), are limited to well-specified small domains. パーソナライズされたプログラミングゲームのための手続き生成(valls-vargas et al , 2017)のような最近のアプローチは、特定の小さなドメインに限定されている。 0.63
We address these limitations by leveraging recent success in deep generative models, in particular language models (LMs). 本稿では,近年の深層生成モデル,特に言語モデル(LM)の成功を活用して,これらの制約に対処する。
訳抜け防止モード: これらの制限に対処します 深層生成モデルの最近の成功、特に言語モデル(lsm)の活用。
0.78
Many educational activities involve sequential data, such as language translation, reading compre- 言語翻訳, 読解, 読解など, 逐次データを含む多くの教育活動 0.78
Figure 1: Example input and outputs for our LM-based knowledge tracing model (middle) and question generation model (bottom) for an online reverse language translation task (top). 図1: 私たちのLMベースの知識追跡モデル(中級)とオンライン逆言語翻訳タスク(トップ)のための質問生成モデル(ボット)の入力と出力の例。 0.83
A question in this task consists of a target phrase for the student, in this case a Spanish learner, to translate (e g “the woman”). この課題の質問は、学生(この場合、スペイン語の学習者)が翻訳する目的のフレーズから成り立っている(例:「女性」)。 0.75
hension, algebra, and deductive logic. ヘンション、代数学、推論論理。 0.63
Meanwhile, pre-trained LMs can effectively handle sequences from a wide range of modalities (Madani et al , 2020; Polu and Sutskever, 2020). 一方、事前訓練されたLMは、幅広いモダリティ(Madani et al , 2020; Polu and Sutskever, 2020)のシーケンスを効果的に処理できる。 0.72
In this work, we focus on natural language sequences, where recent progress in language modeling has shown great success at capturing abstract properties of language (Hewitt and Manning, 2019; Liu et al , 2019). 言語モデリングの最近の進歩は、言語の抽象的性質を捉えることに大きな成功を収めている(Hewitt and Manning, 2019; Liu et al , 2019)。
訳抜け防止モード: 本研究では,近年の言語モデリングの進歩が大きな成功を収めている自然言語列に着目した。 言語の抽象プロパティ(Hewitt and Manning, 2019; Liu et al, 2019)をキャプチャする。
0.83
Specifically, we show how pre-trained LMs can be easily leveraged to adaptively generate questions for a given student and target difficulty in a reverse translation task, using difficulty at answering questions as a proxy for more complex future learning objectives. 具体的には、より複雑な将来の学習目的のプロキシとして、質問に答えることの難しさを利用して、学生の質問を適応的に生成し、逆翻訳タスクの難易度を目標とする。 0.73
We introduce an LM-based knowledge tracing model (LM-KT) to predict students’ difficulty on novel questions (e g target phrases to translate). 本稿では,新しい質問(翻訳対象句など)の難易度を予測するために,LMベースの知識追跡モデル(LM-KT)を提案する。 0.71
We show that LM-KT is well-calibrated, allowing us to pose the learning problem for the question generator: given a student state, generate a question that will achieve a target difficulty, according 我々は,LM-KTが十分に校正されていることを示し,質問生成者の学習問題を提起する:学生の状態が与えられたら,目標とする困難を達成できる質問を生成する。 0.75
Target Difficulty<G><Q>Question #1 Text<A><Y> or <N><Q>Question #2 Textgenerated next question text <A><Y><N><Q> the man<A> <Y> <Q> she eats<A> .86.140.80 <G>the man eatsOUTPUTINPUTINPUT OUTPUTstudent stateLM-KT Student ModelQues6on GeneratorExample Reverse Transla6on Ques6onQuestion Textthe womanStudent Answerla mujer Translation Correct<Y> Target Difficulty<G><Q>Question #1 Text<A><Y> or <N><Q>Question #2 Text generated next question text<A><Y><N><Q> the man<Y> <Q> she eats<A> .86.140.80 <G> the man eatsOUTPUTINPUTINPUT OUTPUTstudent stateLM-KT Students ModelQues6on GeneratorExample Reverse Transla6on Ques6onQuestion Textthe womanStudent Answerla mujer Translation Correct<Y> 0.95
英語(論文から抽出)日本語訳スコア
to LM-KT. We evaluate both LM-KT and question generation models on real users and responses from Duolingo1, a popular online second-language learning platform. LM-KTへ。 我々は,実ユーザ上でのLM-KTと質問生成モデルと,人気のあるオンライン第二言語学習プラットフォームであるDuolingo1からの応答を評価した。 0.64
2 Background & Related Works There exists a rich body of work on precisely modeling student “ability” and learning. 背景と関連作品2 学生の“能力”と学習を正確にモデル化する作業には,豊富な部分があります。 0.68
For example, Item Response Theory (IRT) seeks to model individual student ability based on their responses to different questions, creating a strong factorization between students and test items (Lord, 1980; Hambelton and Jodoin, 2003). 例えば、アイテム反応理論(IRT)は、異なる質問に対する反応に基づいて個々の学生の能力のモデル化を試み、学生とテスト項目の強力な分解を生み出す(Lord, 1980; Hambelton and Jodoin, 2003)。 0.83
Meanwhile, Computer Adaptive Testing (CAT) techniques are used to determine a fixed student ability as quickly as possible by selecting test items based on information utility (Weiss and Kingsbury, 1984; Thissen and Mislevy, 2000; Settles et al , 2020). 一方、コンピュータ適応テスト(CAT)技術は、情報ユーティリティーに基づくテスト項目を選択することにより、できるだけ早く学生の能力を決定するために用いられる(Weiss and Kingsbury, 1984; Thissen and Mislevy, 2000; Settles et al , 2020)。 0.87
However, these methods, which have been used to develop efficient standardized tests, do not necessarily optimize a student’s learning experience (Mu et al , 2018). しかしながら、効率的な標準化テストの開発に使用されているこれらの手法は、必ずしも学生の学習経験を最適化するものではない(mu et al , 2018)。 0.76
We instead focus on tracking each student’s evolving knowledge, choosing questions to target difficulty. 代わりに、各学生の進化する知識を追跡することに集中し、難易度を目標とする質問を選択します。 0.56
Knowledge Tracing (KT) seeks to model a student’s knowledge state from their answer history in order to help individualize exercise sequences (Corbett and Anderson, 1995). 知識追跡(KT)は、運動シーケンスの個別化を支援するために、学生の知識状態を解答履歴からモデル化しようとする(Corbett and Anderson, 1995)。 0.83
This draws inspiration from traditional education curriculum practices, such as distributed spacing of vocabulary (Bloom and Shuell, 1981) and mixed review in mathematics (Rohrer, 2009). これは、語彙の分散間隔(Bloom and Shuell, 1981)や数学の混合レビュー(Rohrer, 2009)のような伝統的な教育カリキュラムの実践から着想を得ている。 0.78
To address simplifying assumptions in earlier KT approaches, such as discrete knowledge representations, Piech et al (2015) introduced Deep Knowledge Tracing (DKT), which uses RNNs to enable more complex knowledge representations for students. 離散的知識表現(DKT)のような初期のKTアプローチにおける単純化された仮定に対処するために、Piech et al (2015)は、学生のためのより複雑な知識表現を可能にするためにRNNを使用するDeep Knowledge Tracing (DKT)を導入した。 0.53
Recently, SAINT+ (Shin et al , 2020) showed state-of-the-art performance on the popular EdNet KT task using a Transformer model to capture temporal information across activities, motivating our use of Transformer LMs. 近年、SAINT+(Shin et al , 2020)は、Transformerモデルを用いて、人気のあるEdNet KTタスク上での最先端のパフォーマンスを示し、活動間の時間情報をキャプチャし、Transformer LMの使用を動機付けている。 0.58
Controllable Text Generation aims to steer LMs towards desired attributes. 制御可能なテキスト生成は、所望の属性に向けてLMを操ることを目的としている。 0.41
Examples include using reinforcement learning to control quality metrics (Ranzato et al , 2016), adjusting sampling weights to control for poetry style (Ghazvininejad et al , 2017), and learning to condition on valence or domain-specific codes (Keskar et al , 2019; Peng et al , 2018). 例えば、強化学習による品質指標の制御(ranzato et al , 2016)、詩スタイルの制御に対するサンプリング重みの調整(ghazvininejad et al , 2017)、価数やドメイン固有のコードに関する条件の学習(keskar et al , 2019; peng et al , 2018)などがある。 0.77
To the best of our knowledge, we are 私たちの知識を最大限に活用するために、私たちは 0.55
1http://duolingo.com 1http://duolingo.com 0.52
the first to use controllable generation in an education context with real student interaction data. 実学生の対話データを用いた教育場面における制御可能な生成について 0.69
3 Method Given any autoregressive language model (e g GPT-2 (Radford et al , 2019), we can fine-tune a LM-KT model (pθKT ) to predict whether an individual student will correctly answer the next question. 3 自己回帰型言語モデル (g GPT-2 (Radford et al , 2019) が与えられた場合, LM-KTモデル (pθKT ) を微調整して, 個々の学生が次の質問に正しく答えられるかどうかを予測する。 0.73
If this model has well-calibrated uncertainty, we can use its predicted probability of a correct answer as a proxy for the difficulty of a question to a student. このモデルに十分な不確実性がある場合、その予測された正しい答えの確率を、学生への質問の難易度を示す指標として利用することができる。 0.66
We then train a question generation model (pθQG) to generate a new question conditioned on a student and desired target difficulty. 次に,質問生成モデル (pθQG) を訓練し,学生に条件付けされた新しい質問を生成する。 0.75
Question Representation Unlike standard DKT, which treats questions as IDs or simple handcrafted features, we represent questions fully in text (e g “she eats” in Figure 1). 質問表現 質問をIDや単純な手作りの特徴として扱う標準的なDKTとは異なり、質問は完全にテキストで表現する(図1に「食べる」など)。 0.64
This is a key contribution of our work, required by our eventual goal of generating questions in text, and allows the model to leverage similarity across linguistic features. これは私たちの仕事の重要な貢献であり、テキストで質問を生成するという最終的な目標に必要であり、モデルが言語的特徴の類似性を活用できるようにします。 0.63
We thus represent a question q as a sequence of words, with prefix and suffix tokens: したがって、質問qを単語の列として、接頭辞と接尾辞のトークンで表現する。 0.62
qi = <Q> wi qi = <Q> wi 0.85
1 wi 2 wi 3 ... wi 1 wi 2 wi 3... wi 0.82
n <A> Student State We represent a student as a temporally-evolving sequence of questions and their responses. n<A> 学生状態 学生を時間的に進化する一連の質問とその回答として表現する。 0.73
As in much previous KT work, we represent the student response as simply correct/incorrect, with special tokens <Y> and <N>. これまでのKT研究と同様に、学生の反応は単に正誤であり、特別なトークン<Y>と<N>である。 0.64
A student’s current state is thus represented as a sequence of all past question and response pairs: m , ai ∈ {<Y>,<N>} sj = qj LM-KT Given the sequential nature of student learning over time, we can easily frame knowledge tracing as an autoregressive language modeling task. m , ai ∈ {<Y>,<N>} sj = qj LM-KT 学生の現在の状態は、時間とともに学習のシーケンシャルな性質を考慮すれば、知識追跡を自己回帰言語モデリングタスクとして簡単にフレーム化することができる。
訳抜け防止モード: したがって、学生の現在の状態は過去の全ての質問と応答ペアの列として表される:m, ai ∈ { < Y>,<N > } sj = qj LM - KT 時間とともに学習のシーケンシャルな性質が与えられる。 自己回帰型言語モデリングタスクとして知識追跡を簡単に行うことができる。
0.81
Given a dataset D of students s1, s2, ..., s|D|, we employ the standard training objective of finding the parameters θKT that minimizes 学生 s1, s2, ..., s|D| のデータセット D が与えられた場合、最小化できるパラメータ θKT を見つけるための標準訓練目標を用いる。 0.74
2 ... qj m aj 2... qj maj 0.57
1 aj 1 qj 2 aj 1aj 1qj 2aj 0.65
|D|(cid:88) |D|(cid:88) 0.65
|x(i)|(cid:88) x(i)|(cid:88) 0.90
LKT = − logpθKT (x(i) LKT = − logpθKT (x(i)) 0.83
t |x(i) <t) t |x(i) <t) 0.90
(1) i=1 t=1 (1) i=1 t=1。 0.63
where x(j) = (x(j) 1 , ...., x(j)|x| ) is the entire sequence tokens corresponding to student sj, consisting of all their past questions and answers. x(j) = (x(j) 1 , ...., x(j)|x| ) は学生 sj に対応するシーケンストークン全体であり、過去の全ての質問と回答からなる。 0.83
Using the softmax output of the LM-KT model (pθKT ), we estimate a student’s (inverse) difficulty in answering a specific question as dqs = pθKT (<Y>|s, q). lm-ktモデルのソフトマックス出力(pθkt)を用いて、特定の質問に答える生徒の(逆)難易度を dqs = pθkt (<y>|s, q) として推定する。 0.72
We find that pθKT is well-calibrated (Section 4.2), yielding a good proxy for the true question difficulty. pθkt はよく説明され(第4条2)、真の質問の難易度に対するよい代理人となる。 0.49
英語(論文から抽出)日本語訳スコア
Question Generation We frame question generation as finetuning a new autoregressive LM. 質問生成 新しい自己回帰的lmの微調整として質問生成をフレーム化する。 0.51
Given random samples of students and questions from a held-out set not used to train LM-KT, we can construct a new dataset D(cid:48) consisting of si di<G> qi sequences, where <G> is a special generation token and di = pθKT (<Y>|si, qi) is the continuous difficulty value assigned by LM-KT. LM-KTのトレーニングに使用されていない留学生のランダムなサンプルと質問に対して,si di<G> qi 配列からなる新しいデータセット D(cid:48) を構築し,<G> は特別な生成トークンであり,di = pθKT (<Y>|si, qi) はLM-KT が割り当てる連続困難値である。 0.87
We learn a linear layer to map the continuous input difficulty into a difficulty control vector cd of dimension matching the LM word-embeddings, which we append to the token embeddings. 我々は、連続的な入力難易度をLMワード埋め込みと一致する次元の難易度制御ベクトルcdにマッピングし、トークン埋め込みに付加する線形層を学習する。 0.78
Unlike LM-KT, we train our question generation model pθQG to minimize the loss only on the question text, which only appears after the<G> token. lm-kt とは異なり,質問生成モデル pθqg を訓練し,<g> トークンの後にのみ現れる質問文上の損失を最小限に抑える。 0.68
If tg is the token index of <G>, then our modified loss is: tgが<G>のトークンインデックスであれば、変更された損失は次のようになる。 0.67
|D(cid:48)|(cid:88) |D(cid:48)|(cid:88) 0.76
|x(i)|(cid:88) x(i)|(cid:88) 0.90
LQG = − logpθQG(x(i) LQG = − logpθQG(x(i)) 0.83
t |x(i) <t) t |x(i) <t) 0.90
(2) Model (Spanish) AUC (seen) AUC (unseen) LM-KT Standard DKT Question Only Model (French) LM-KT Standard DKT Question Only (2) Model (スペイン語) AUC (未確認) LM-KT Standard DKT Question Only Model (フランス語) LM-KT Standard DKT Question Only Model (フランス語) 0.84
0.75 ±.0001 0.72 ±.0001 0.67 ±.0001 AUC (seen) AUC (unseen) 0.73 ±.0002 0.70 ±.0001 0.65 ±.0002 0.75 ±.0001 0.72 ±.0001 0.67 ±.0001 AUC (seen) AUC (unseen) 0.73 ±.0002 0.70 ±.0001 0.65 ±.0002 0.55
0.76 ±.001 0.70 ±.001 0.58 ±.002 0.76 ±.001 0.70 ±.001 0.58 ±.002 0.43
0.71 ±.002 0.65 ±.002 0.62 ±.001 0.71 ±.002 0.65 ±.002 0.62 ±.001 0.43
Table 1: LM-KT improves AUC for both questions in the Duolingo test set that were seen during training (for other students) and novel questions, over Standard DKT with Question IDs and question-only baselines. 表1:LM-KTは、訓練中に見られたDuolingoテストセットと新しい質問の両方において、質問IDと質問専用ベースラインを備えた標準DKTよりもAUCを改善する。 0.73
Errors are 95% CIs. エラーは95%CIである。 0.72
i=1 t=tg+1 i=1 t=tg+1 0.49
where sequence x(j) contains the full sj dj<G>qj sequence. ここで、シーケンス x(j) は完全な sj dj<g>qj 列を含む。 0.79
At test time, we generate tokens w1...wn conditioned on the sj dj <G> prefix. テスト時には、sj dj <G>プレフィックスに条件付きトークンw1...wnを生成する。 0.72
4 Experiments Our method generalizes to any education activity that can be represented with text sequences. 4つの実験 本手法は,テキストシーケンスで表現可能な教育活動を一般化する。 0.68
Due to the availability of real student learning data, we focus on a reverse language translation task, where a student translates phrases from their native language (e g English, “she eats”) to the second language they are learning (e g Spanish, “ella come”). 実際の学習データが利用可能であることから,学生が母国語(英語で「食べる」など)から学習している第2の言語(スペイン語で「食べる」など)にフレーズを翻訳する,リバース言語翻訳タスクに着目する。 0.70
4.1 Experimental Details We use the 2018 Duolingo Shared Task on Second Language Acquisition Modeling (Settles et al , 2018) dataset, which contains questions and responses for Duolingo users over the first 30 days of learning a second language. 4.1 実験的な詳細 私たちは、2018年のduolingo shared task on second language acquisition modeling (settles et al , 2018)データセットを使用しています。
訳抜け防止モード: 4.1 実験詳細 2018 Duolingo Shared Task on Second Language Acquisition Modeling (Settles et al, 2018年) データセット。 Duolingoユーザには、最初の30日間の第二言語学習に関する質問と回答が含まれている。
0.90
While the original task’s goal was to identify token-level mistakes, we collapse these errors into binary (correct / incorrect) per-question labels. 元々のタスクはトークンレベルのエラーを識別することだったが、これらのエラーをクエリ毎のバイナリ(正しい/間違った)ラベルに分解する。 0.60
We use the provided train/dev/test splits for users learning Spanish and French. 提供されたTrain/dev/testの分割を使って、スペイン語とフランス語を学習しています。 0.45
We create separate held-out sets from the test set to evaluate the LM-KT and question generation models. 我々は、lm-ktおよび質問生成モデルを評価するためにテストセットから別個のホールドアウトセットを作成する。 0.59
For both models, we finetune separate GPT-2 (Radford et al , 2019) models. どちらのモデルも、GPT-2(Radford et al , 2019)モデルを微調整します。 0.72
While we sample from a held-out set of student states and questions to train the question generation model, in principle questions can come from any source text 質問生成モデルをトレーニングするために、学生状態と質問のセットからサンプルを採取しますが、原則として、質問はあらゆるソーステキストから来ます。
訳抜け防止モード: 質問生成モデルをトレーニングするために、学生の状態と質問のセットからサンプルを採取します。 原則として 質問はあらゆる情報源から
0.73
Figure 2: Both LM-KT models are well calibrated, but the French model is slightly more overconfident. 図2: 両方のLM-KTモデルはよく校正されているが、フランスのモデルはもう少し自信過剰である。 0.59
Filled area shows bootstrap (n=1000) standard deviation. 充填領域はブートストラップ(n=1000)標準偏差を示す。 0.61
domain. Further experiment details are in the Appendix, and source code can be found at: https:// github.com/meghabyte /acl2021-education. ドメイン。 さらなる実験の詳細はAppendixにあり、ソースコードはhttps:// github.com/meghabyte /acl2021-educationで見ることができる。 0.70
4.2 Results: Student Modeling We evaluate LM-KT two ways: first, its ability to predict if an individual student will answer a novel question correctly on a held-out test set of real Duolingo student responses. 4.2 結果: 学生モデリングはlm-ktを2つの方法で評価する: 第一に、個々の学生が実際のduolingo学生応答の保持テストセットで、新しい質問に正しく答えるかどうかを予測する能力。
訳抜け防止モード: 4.2 結果 : 学生モデリング LM - KT の2つの評価方法 : まず, まず 個々の学生が、保持された上で新しい質問に正しく答えるかどうかを予測する能力。
0.81
Second, how wellcalibrated these predictions are, which is crucial to our later use of LM-KT for question generation. 第二に、これらの予測がいかにうまく校正されているかは、今後の質問生成におけるLM-KTの使用に不可欠である。 0.47
Table 1 compares AUC-ROC on a held-out test set for our LM-KT model with standard DKT, which uses question IDs instead of text, and a baseline that ignores the student state, only using the question text representation. 表1は、私たちのLM-KTモデルのホールドアウトテストセットでAUC-ROCを、テキストの代わりに質問IDを使用する標準DKTと、質問テキスト表現のみを使用して学生の状態を無視したベースラインと比較する。 0.76
This question only baseline would perform well if the Duolingo dataset largely consisted of universally “easy” and “difficult” questions, independent of individual student. この疑問は、Duolingoデータセットが一般に「簡単」で「難解」な質問で構成されており、個々の学生とは独立している場合にのみうまく機能する。
訳抜け防止モード: この疑問は、Duolingoデータセットが一般的に“簡単”と“難しい”の質問で構成されている場合のみ、うまく機能する。 個別の学生から独立。
0.66
Our results show that incorporating the student state is crucial for accurately predicting Duolingo user responses, and including question text also leads to a significant improvement. 以上の結果から,duolingoのユーザ応答を正確に予測するには学生状態の統合が不可欠であり,質問文を含めることも大きな改善をもたらすことが示唆された。
訳抜け防止モード: 私たちの結果は duolingoのユーザ応答を正確に予測するには,学生状態の統合が不可欠である。 質問テキストを含めると、大幅に改善される。
0.66
LMKT outperforms Standard DKT especially on novel questions—a necessary generalization ability for generation. LMKTは特に新しい問題(生成に必要な一般化能力)で標準DKTより優れている。 0.54
Finally, we measure the calibration of our LMKT models for both Spanish and French (from En- 最後に、スペイン語とフランス語の両方のLMKTモデルのキャリブレーションを測定する(En-より)。 0.60
0.00.20.40.60.81.0Me an Predicted Probability0.00.20.4 0.60.81.0Fraction of positivesFrench LM-KTSpanish LM-KTIdeal Calibration 0.00.20.40.60.81.0Me an Predicted Probability0.00.20.4 0.60.81.0Fraction of positives French LM-KT Spanish LM-KTIdeal Calibration 0.25
英語(論文から抽出)日本語訳スコア
glish) learners, which is the crucial property for our downstream generation task. 学習者) 下流生成タスクにとって重要な特性である学習者。 0.68
We bin our test data by predicted question difficulty, and plot the fraction of true correct answers in each bin. 予測された質問の難しさによってテストデータを結合し、各ビンの真正解の割合をプロットする。 0.64
Figure 2 shows that LM-KT is well-calibrated, for both Spanish and French, meaning the predicted difficulty matches the empirically observed proportion of correct answers. 図2は、LM-KTがスペイン語とフランス語の両方でよく校正されていることを示している。
訳抜け防止モード: 図2は、LM-KTが良好であることを示している。 スペイン語とフランス語の両方の意味 予測された困難は 経験的に観察された正解の割合と一致します
0.56
4.3 Results: Question Generation We evaluate four different aspects of our question generation model: (i) successful control for difficulty, (ii) novelty, (iii) fluency, and (iv) latency. 4.3 結果: 質問生成: 質問生成モデルにおける4つの異なる側面を評価する: (i) 難易度制御の成功, (ii) 新規性, (iii) フラレンシ, (iv) レイテンシ。 0.80
Difficulty Control To explore whether our question generation model indeed depends on target difficulty and the individual student, we first measure the model’s perplexity on a held-out test set of Duolingo questions, compared to permutation baselines. 質問生成モデルが本当に目標の難易度に依存しているかどうかを調べるための難易度コントロール 個々の学生は、まずduolingoの質問の保持されたテストセットでモデルのパープレキシティを測定する。 0.75
Table 2 (top) shows that perplexity is lower for true student / target difficulty inputs than when either or both of these are permuted. 表2(トップ)は、真の学生/ターゲットの難易度が、どちらか一方または両方が置換された時よりも低いことを示している。 0.64
The target difficulty values in this analysis were defined by the LM-DKT model. 本分析では,LM-DKTモデルを用いて目的の難易度値を定義した。 0.57
We can remove this dependence by using the actual student responses from Duolingo: we set the target difficulty to 1 if the student was correct and 0 otherwise. この依存をDuolingoの実際の学生反応を用いて除去することができる: 学生が正し、そうでなければ、目標の難易度を1に設定する。 0.71
Table 2 (bottom) shows our model prefers questions paired with these “true correctness” targets than paired with random ones. テーブル2(bottom)では、ランダムな質問よりも、これらの“真正正しさ”ターゲットとペアリングされた質問を好むことを示しています。 0.49
To evaluate how well our generation model achieves target difficulties, we take 15 unseen students and generate 30 questions for each of 9 input difficulties (0.1-0.9). 対象の難易度を評価するため、15人の未確認学生を対象とし、入力困難度(0.1-0.9)毎に30の質問を生成する。 0.57
We then use LM-KT (a wellcalibrated proxy for true difficulty) to measure the difficulty of these generated questions for each student. 次に、lm-kt( wellcalibrated proxy for true difficulty)を使用して、各学生に生成された質問の難易度を測定します。 0.63
Figure 3 shows that we are able to achieve fine-grained control over target difficulty for both Spanish and French students, with an average RootMean Squared Error (RMSE) of .052 across all students and target difficulties. 図3は、スペインの学生とフランスの学生の両方にとって、ターゲットの難易度を細かく制御することができ、平均的なRootMean Squared Error (RMSE) は、すべての学生とターゲットの難易度で .052 であることを示している。 0.63
Adding a sampling penalty (Keskar et al , 2019) increases the variance in difficulty (RMSE .062) in exchange for more novel and diverse questions, as discussed next. サンプリングペナルティ(Keskar et al , 2019)の追加は、次に述べたように、より斬新で多様な質問と引き換えに難易度のばらつき(RMSE .062)を増加させる。 0.69
Novelty and Fluency By leveraging a pretrained language model’s ability to manipulate structure, we can generate novel questions not present in the entire Duolingo question set (See Table 3). 事前学習された言語モデルの構造操作能力を活用することで、duolingoの質問セット全体に存在しない新しい質問を生成することができる(表3)。 0.75
Across 4,050 questions generated for Spanish learners, we found that with a repetition penalty (Keskar et al , 2019), around 43% of all questions, and 66% of high difficulty (d = 0.1) スペイン語学習者の4,050件の質問に対して、繰り返し罰(Keskar et al , 2019)、全質問の約43%、難易度(d = 0.1)が66%であった。 0.80
Figure 3: For a random selection of 15 students, our question generator successfully controls for difficulty across a range of 9 target values, evaluated by the LMKT model. 図3:15人の学生をランダムに選別する際,LMKTモデルで評価した9つの目標値の範囲の難易度を質問生成器が制御することに成功した。 0.73
Error bars show standard deviation. エラーバーは標準偏差を示す。 0.71
questions, were novel 2. 質問は「小説2」でした 0.64
For French learners, 48% of all and 55% of high difficulty (d = 0.1) questions were novel. フランス語の学習者では、全体の48%、難易度(d = 0.1)の55%が新しい質問であった。 0.71
However, around 3% of generated sentences were judged to be non-fluent 3, although most were still able to be translated (e g “if i eat some baguettes it breaks.”). しかし、生成した文の約3%が非流動性3であると判断されたが、ほとんどは翻訳可能であった(例:「バケットを食べると壊れる」)。 0.76
Without a sampling penalty, the proportion of novel questions drops to about 11 % of questions for French learners (6 % for Spanish learners), yet with far fewer non-fluent examples. サンプリングペナルティがなければ、新しい質問の比率は、フランス語学習者(スペイン語学習者では6%)の約11%に低下するが、非流動的な例ははるかに少ない。 0.73
Further details and examples of novel and non-fluent generated questions for both Spanish and French learners, are in the Appendix. スペイン語とフランス語の両方の学習者のための、新規で非流動的な質問のさらなる詳細と例は、Appendixにある。 0.64
Ablation Type ppl Spanish アブレーション型 pplスペイン語 0.74
ppl French LM-DKT Likelihood (0 - 1) pplフランス語 LM-DKT類似(0-1) 0.73
Ground Truth Permute Student Permute Difficulty Permute Both 基礎的真理ペルミュート 学生パーミュート 難易度 両方 0.54
4.33 ±0.20 6.73 ±0.24 12.5 ±1.01 13.1 ±0.43 4.33 ±0.20 6.73 ±0.24 12.5 ±1.01 13.1 ±0.43 0.37
Real Student Answers (0 or 1) 実際の学生回答 (0 または 1) 0.86
Ground Truth Permute Student Permute Difficulty Permute Both 基礎的真理ペルミュート 学生パーミュート 難易度 両方 0.54
17.7 ±1.3 19.75 ±0.43 30.6 ±2.17 31.3 ±1.49 17.7 ±1.3 19.75 ±0.43 30.6 ±2.17 31.3 ±1.49 0.37
3.86 ±0.09 5.11 ±0.41 7.66 ±0.33 7.87 ±0.26 3.86 ±0.09 5.11 ±0.41 7.66 ±0.33 7.87 ±0.26 0.37
9.49 ±.20 10.56 ±.60 13.5 ±0.60 13.8 ±0.43 9.49 ±.20 10.56 ±.60 13.5 ±0.60 13.8 ±0.43 0.39
Table 2: Perplexity of the question generation model over a held-out evaluation set with ablations. 表2: アブレーションのあるホールドアウト評価セットにおける質問生成モデルのパープレキシティ。 0.78
Latency Positive student experience in online education requires low latency. オンライン教育における学生体験の遅延は低レイテンシを必要とする。 0.55
In about four seconds, our model can generate 30 questions close to a target difficulty. 約4秒で、我々のモデルは目標の難易度に近い30の質問を生成することができる。 0.63
An alternative to question generation is to rank questions from a preexisting pool, according to a target difficulty objective. 質問生成の代替手段は、目標難易度目標に従って、既存のプールから質問をランク付けすることである。
訳抜け防止モード: 質問生成の代替手段は 目標の難易度に応じて 既存のプールからの質問をランク付けします
0.73
We compare the quality (RMSE in achieving target difficulty) of the top 30 questions in a pool against the run-time プール内のトップ30質問の品質(目標難易度達成時のrmse)と実行時間の比較を行った。
訳抜け防止モード: 私たちは品質(RMSE)を比較します。 目標の困難を達成すること プールの上位30問のうち
0.82
2The CTRL penalty discounts the scores of previously generated tokens, with the HuggingFace Transformers library (Wolf et al , 2020) implementation including tokens provided as part of the prompt. 2 CTRLペナルティは、前述したトークンのスコアを割引し、そのプロンプトの一部として提供されるトークンを含むHuggingFace Transformersライブラリ(Wolf et al , 2020)の実装である。 0.68
In our setting, this effectively penalizes for generating questions already seen by the student. 我々の設定では、これは学生がすでに見ている質問を効果的に解決する。 0.60
3We use the language-check Python tool to verify grammar 3 私たちはpythonの言語チェックツールを使って文法を検証する 0.63
https://pypi.org/pro ject/language-check/ . https://pypi.org/pro ject/language-check/ 。 0.36
0.10.20.30.40.50.60. 70.80.9Input Target Difficulty for Generation0.00.20.40 .60.8LM-KT Likelihoodfrenchfren ch w/ penaltyspanish w/ penaltyspanish 0.10.20.30.40.40.50. 60.70.8 0.0.40.60.8LM-KT Likelihoodfrenchfren ch w/ penaltyspanish w/ penaltyspanish 0.30
英語(論文から抽出)日本語訳スコア
Difficulty: 0.1 (very hard) you write letters. 難易度:0.1(非常に難しい)文字を書く。 0.69
i know about that book. 私はその本について知っている。 0.50
she reads your letters. 彼女はあなたの手紙を読む 0.66
those ducks drink water. アヒルは水を飲みます。 0.53
he mixes coffee with water. 彼はコーヒーと水を混ぜます。 0.68
Difficulty: 0.3 (hard) you drink juice or water you drink water accordingly he does it can we as a band? 難易度:0.3(硬い)水やジュースを飲むと、バンドとして飲める? 0.63
during the night 0.9 (very easy) spoon or tea socks good morning! 夜の間に 0.9(とても簡単)スプーンかティーソックス おはようございます! 0.78
a horse oil against salt 0.7 (easy) what dream? 塩0.7(安易)の馬油って何の夢? 0.80
saturday and sunday until tomorrow yes, it is possible! 土曜と土曜 明日まで。 はい 可能です! 0.59
me too Table 3: Example questions generated by our model for a Spanish learner. 私も 表3: スペイン人学習者のモデルによって生成された質問の例。 0.73
Italic questions are novel, and do not exist in the Duolingo dataset. イタリックな質問は斬新であり、duolingoデータセットには存在しません。 0.56
required to rank all questions in the pool, varying its size (Figure 4). プール内のすべての質問をランク付けし、そのサイズを変える必要がある(図4)。 0.71
On one NVIDIA Titan XP GPU, we find that, averaged across all target difficulties, our question generation model takes half the time to achieve the same quality as pool selection. あるNVIDIA Titan XP GPUでは、ターゲットの難易度を平均して、質問生成モデルはプール選択と同じ品質を達成するのに半分の時間を要することがわかった。 0.78
The gap increases when trying to sample harder questions ( d <0.5) – even a pool size of 1000 does not have sufficient difficult questions, likely due to a skew in the Duolingo question set. 厳密な質問(d <0.5)をサンプリングしようとするとギャップが増大するが、Duolingoの質問セットのスキューのため、1000のプールのサイズでさえ十分な難問が得られない。 0.70
Additional controls, such as for style or topic, can easily be combined with our generation method, but would make pool selection exponentially more complex. スタイルやトピックなどの追加コントロールは、生成メソッドと簡単に組み合わせることができますが、プール選択を指数関数的に複雑にします。 0.80
Figure 4: Pool selection (for one student) suffers worse question quality vs. latency trade-off than question generation, especially for sampling difficult questions. 図4:(一人の学生にとって)プールの選択は、特に難しい質問をサンプリングするために、質問生成よりも質が悪くなる。 0.68
5 Conclusion Our work is a first step toward showing that sequence-based models combined with domain knowledge, such as pre-trained LMs, can be leveraged for adaptive learning tasks. 5 結論 私たちの研究は、事前学習されたlmsのようなドメイン知識と組み合わせたシーケンスベースのモデルが適応学習タスクに活用できることを示すための第一歩です。 0.67
We show how to use modern LMs to generate novel reversetranslation questions that achieve a target difficulty, allowing adaptive education methods to expand beyond limited question pools. そこで本研究では,適応的教育手法が限定的な質問プールを超えて拡張できるような,新しい逆翻訳問題を生成するために,現代のlmsを用いた方法を示す。
訳抜け防止モード: 最新のLMを用いて新しい逆翻訳問題を生成する方法を示す。 限定的な質問プールを超えて 適応的な教育手法を拡張できる
0.73
Limitations of our approach include the compute constraints of large LMs and training data availability. このアプローチの限界には、大規模なLMの計算制約とデータ可用性のトレーニングが含まれる。 0.60
More detailed student data will be crucial to より詳細な学生データが重要になる 0.88
future model development. For instance, while most publicly available education datasets do not include the full student responses (e g full translation response in Duolingo), such information could significantly improve the performance of our LMKT model. 将来のモデル開発。 例えば、ほとんどの公開教育データセットは学生の反応を完全に含まない(例えばデュオリンゴの完全な翻訳応答)が、そのような情報はLMKTモデルの性能を大幅に向上させる可能性がある。 0.82
Other future directions include exploring non-language domains, such as math or logic exercises, and controlling for auxiliary objectives such as question topic. その他の今後の方向性としては、数学や論理演習などの非言語領域の探索、質問トピックなどの補助目的の制御などがある。 0.64
Finally, designing appropriate user studies to evaluate our method is a complex yet critical next step to determine its suitability in a real-world education setting. 最後に,本手法を評価するための適切なユーザ研究の設計は,実世界の教育環境においてその適合性を決定するための,複雑かつ重要な次のステップである。
訳抜け防止モード: 最後に,本手法を評価するための適切なユーザスタディの設計 複雑だがクリティカルな次のステップです 現実世界の教育環境においてその適合性を決定する。
0.67
Our techniques allows control for individual student difficulty, but it leaves open the question of optimal curriculum design using difficulty-directed question generation. 本手法は,個々の生徒の難易度を制御できるが,難易度指向の質問生成を用いた最適カリキュラム設計の課題を解き放つ。 0.71
6 Broader Impact Online education platforms can increase the accessibility of high quality educational resources for students around the world. 6 Broader Impact Online教育プラットフォームは、世界中の学生にとって高品質な教育リソースのアクセシビリティを高めることができる。 0.81
Adaptive techniques that allow for more individualized learning strategies can help such technologies be more inclusive for students who make less-common mistakes or have different prior backgrounds (Lee and Brunskill, 2012). より個別化された学習戦略を可能にする適応的手法は、一般的な誤りの少ない学生や、以前のバックグラウンドが異なる学生にとって、そのような技術がより包括的になるのに役立つ(Lee and Brunskill, 2012)。 0.57
However, our method is subject to biases found in the training data, and careful consideration of using safe and appropriate data is crucial in an education context. しかし,本手法はトレーニングデータに偏りがあり,安全かつ適切なデータの利用を慎重に検討することが教育の文脈において重要である。 0.86
Moreover, our specific use of pre-trained LMs relies on the significant progress of NLP tools for English language – further research and development of these tools for other languages can help ensure our method benefits a larger population of students. さらに、事前学習されたLMの使用は、英語におけるNLPツールの大幅な進歩に依存しており、これらのツールの他言語へのさらなる研究と開発は、我々の方法がより多くの学生に利益をもたらすことを確実にするのに役立つ。 0.62
7 Acknowledgements This work was supported in part by the Stanford HAI Hoffman–Yee project “AI Tutors to Help Prepare Students for the 21st Century Workforce”. 7 HAI Hoffman-Yeeプロジェクト"AI Tutors to Help Prepare Students for the 21th Century Workforce"によって部分的に支援された。 0.78
MS was additionally supported by the NSF Graduate Research Fellowship Program under Grant No. msはnsfの大学院研究フェローシッププログラムにも支援された。 0.60
DGE 1656518. DGE 1656518。 0.78
References R. C. Atkinson. R.C.アトキンソンを参照。 0.53
1972. Optimizing the learning of a second-language vocabulary. 1972. 第二言語語彙の学習の最適化。 0.84
In Journal of Experimental Psychology. 実験心理学誌に載っています 0.62
K. C. Bloom and T. J. Shuell. K.C.ブルームとT.J.シュエル。 0.58
1981. Effects of massed and distributed practice on the learning and retention In The Journal of of second-language vocabulary. 1981. 大衆的・分散的実践が学習と維持に及ぼす影響 : 第二言語語彙のジャーナルにおいて 0.81
Educational Research. Taylor & Francis, Ltd. 教育研究。 Taylor & Francis, Ltd. 0.79
024681012Latency (Seconds)0.150.200.2 50.300.350.400.450.5 0RMSE (Target Difficulty)pool size 50pool size 50pool size 1000pool size 1000Pool Sampling (all targets)Pool Sampling (difficult targets only)Generation (all targets)Generation (difficult targets only) 024681012 Latency (Seconds)0.150.200.2 50.350.350.50RMSE (Target Difficulty)pool size 50pool size 50pool size 1000Pool Sampling (All target) Pool Sampling (difficult target only) Generation (all target) Generation (difficult target only) Generation (difficult target only) 0.72
英語(論文から抽出)日本語訳スコア
A. T. Corbett and J. R. Anderson. A・T・コーベットとJ・R・アンダーソン。 0.48
1995. Knowledge tracing: Modeling the acquisition of procedural knowledge. 1995. 知識追跡: 手続き的知識の獲得をモデル化する。 0.79
In User Modeling and User-Adapted Interaction. ユーザモデリングとユーザ適応インタラクション。 0.63
Kluwer Academic Publishers. Kluwer Academic Publishers所属。 0.88
Shayan Doroudi and Emma Brunskill. Shayan DoroudiとEmma Brunskill。 0.78
2019. Fairer but not fair enough on the equitability of knowledge tracing. 2019. 知識追跡の公平性については、公平だが十分ではない。 0.66
In Proceedings of the 9th International Conference on Learning Analytics & Knowledge, LAK19, page 335–339, New York, NY, USA. the 9th international conference on learning analytics & knowledge, lak19, page 335–339, new york, ny, usa. (英語) 0.83
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
Marjan Ghazvininejad, Xing Shi, Jay Priyadarshi, and Kevin Knight. Marjan Ghazvininejad、Xing Shi、Jay Priyadarshi、Kevin Knight。 0.70
2017. Hafez: an interactive poetry In Proceedings of ACL 2017, generation system. 2017. hafez: acl 2017ジェネレーションシステムにおける対話的な詩。 0.73
System Demonstrations, pages 43–48, Vancouver, Canada. System Demonstrations, page 43–48, Vancouver, Canada. 0.98
Association for Computational Linguistics. Tong Mu, Shuhan Wang, Erik Andersen, and Emma Brunskill. 計算言語学会会員。 Tong Mu, Shuhan Wang, Erik Andersen, Emma Brunskill 0.58
2018. Combining adaptivity with progression ordering for intelligent tutoring systems. 2018. 知的指導システムにおける適応性と進行順序の組み合わせ 0.74
New York, NY, USA. ニューヨーク、ニューヨーク、アメリカ。 0.66
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
Nanyun Peng, Marjan Ghazvininejad, Jonathan May, and Kevin Knight. nanyun peng、marjan ghazvininejad、jonathan may、kevin knight。 0.52
2018. Towards controllable story generation. 2018. 制御可能なストーリー生成を目指す。 0.72
In Proceedings of the First Workshop on Storytelling, pages 43–49, New Orleans, Louisiana. Proceedings of the First Workshop on Storytelling』43-49頁、ルイジアナ州ニューオーリンズ。 0.69
Association for Computational Linguistics. Chris Piech, Jonathan Bassen, Jonathan Huang, Surya Ganguli, Mehran Sahami, Leonidas J. Guibas, and Jascha Sohl-Dickstein. 計算言語学会会員。 Chris Piech、Jonathan Bassen、Jonathan Huang、Surya Ganguli、Mehran Sahami、Leonidas J. Guibas、Jascha Sohl-Dickstein。 0.65
2015. Deep knowledge tracing. 2015. 深い知識の追跡。 0.80
In NeurIPS, pages 505–513. NeurIPS』505-513頁。 0.78
RK Hambelton and M Jodoin. RKハンベルトンとM浄土院。 0.62
2003. theory: models and features. 2003. 理論:モデルと特徴。 0.82
Item response Stanislas Polu and Ilya Sutskever. 項目応答 Stanislas PoluとIlya Sutskever。 0.74
2020. Generative language modeling for automated theorem proving. 2020. 自動定理証明のための生成言語モデリング 0.83
John Hewitt and Christopher D. Manning. ジョン・ヒューイットとクリストファー・D・マニング。 0.48
2019. A structural probe for finding syntax in word representations. 2019. 単語表現における構文探索のための構造探索 0.82
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4129–4138, Minneapolis, Minnesota. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4129–4138, Minneapolis, Minnesota 0.77
Association for Computational Linguistics. Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, and Yejin Choi. 計算言語学会会員。 Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, Yejin Choi 0.60
2020. The curious case of neural text degeneration. 2020. 神経テキスト変性の興味深い例。 0.72
Anette Hunziker, Yuxin Chen, Oisin Mac Aodha, Manuel Gomez-Rodriguez, Andreas Krause, Pietro Perona, Yisong Yue, and Adish Singla. Anette Hunziker, Yuxin Chen, Oisin Mac Aodha, Manuel Gomez-Rodriguez, Andreas Krause, Pietro Perona, Yisong Yue, Adish Singla 0.80
2018. Teaching multiple concepts to forgetful learners. 2018. 忘れやすい学習者に複数の概念を教える。 0.76
CoRR, abs/1805.08322. CoRR, abs/1805.08322。 0.60
Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney, Caiming Xiong, and Richard Socher. Nitish Shirish Keskar、Bryan McCann、Lav R. Varshney、Caiming Xiong、Richard Socher。 0.77
2019. CTRL: A conditional transformer language model for controllable generation. 2019. CTRL: 制御可能な生成のための条件変換言語モデル。 0.82
CoRR, abs/1909.05858. CoRR, abs/1909.05858。 0.60
Jung In Lee and Emma Brunskill. Jung In LeeとEmma Brunskill。 0.76
2012. The impact on individualizing student models on necessary practice opportunities. 2012. 学生モデルの個別化が必要な実践機会に与える影響 0.85
In EDM. Nelson F. Liu, Matt Gardner, Yonatan Belinkov, Matthew E. Peters, and Noah A. Smith. edmで。 ネルソン・F・リュー、マット・ガードナー、ヨナタン・ベリンコフ、マシュー・E・ピーターズ、ノア・A・スミス。 0.54
2019. Linguistic knowledge and transferability of contextual representations. 2019. 文脈表現の言語知識と伝達可能性 0.79
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 1073–1094, Minneapolis, Minnesota. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 1073–1094, Minneapolis, Minnesota 0.77
Association for Computational Linguistics. Frederic M. Lord. 計算言語学会会員。 フレデリック・M・ロード 0.52
1980. Applications of item response 1980. 項目応答の応用 0.80
theory to practical testing problems. 理論から実際のテスト問題まで 0.75
Ali Madani, Bryan McCann, Nikhil Naik, Nitish Shirish Keskar, Namrata Anand, Raphael R. Eguchi, Po-Ssu Huang, and Richard Socher. Ali Madani, Bryan McCann, Nikhil Naik, Nitish Shirish Keskar, Namrata Anand, Raphael R. Eguchi, Po-Ssu Huang, Richard Socher 0.84
2020. Progen: Language modeling for protein generation. 2020. Progen: タンパク質生成のための言語モデリング。 0.82
Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever 0.73
2019. Language models are unsupervised multitask learners. 2019. 言語モデルは教師なしマルチタスク学習者である。 0.72
Marc’Aurelio Ranzato, Sumit Chopra, Michael Auli, and Wojciech Zaremba. Marc’Aurelio Ranzato, Sumit Chopra, Michael Auli, Wojciech Zaremba 0.67
2016. Sequence level training with recurrent neural networks. 2016. リカレントニューラルネットワークを用いたシーケンスレベルのトレーニング 0.83
D. Rohrer. 2009. d・ローラー 2009. 0.68
The effects of spacing and mixing practice problems. 間隔と混合の実践的問題の影響。 0.68
In Journal for Research in Mathematics Education. Journal for Research in Mathematics Education(英語) 0.77
National Council of Teachers of Mathematics. 国立数学教師会会員。 0.49
B. Settles, C. Brust, E. Gustafson, M. Hagiwara, and N. Madnani. B。 入植者、C. Brust、E. Gustafson、M. Hagihara、N. Madnani。 0.73
2018. Second language acquisition modeling. 2018. 第二言語習得モデル。 0.83
In Proceedings of the NAACL-HLT Workshop on Innovative Use of NLP for Building Educational Applications (BEA). naacl-hlt workshop on innovative use of nlp for building educational applications (bea) の報告 0.59
ACL. Burr Settles, Geoffrey T. LaFlair, and Masato Hagiwara. ACL。 Burr Settles, Geoffrey T. LaFlair, and Hagihara Masato 0.78
2020. Machine learning–driven language assessment. 2020. 機械学習による言語評価。 0.81
Transactions of the Association for Computational Linguistics, 8:247–263. The Association for Computational Linguistics, 8:247–263。 0.86
Dongmin Shin, Yugeun Shim, Hangyeol Yu, Seewoo Lee, Byungsoo Kim, and Youngduck Choi. Dongmin Shin, Yugeun Shim, Hangyeol Yu, Seewoo Lee, Byungsoo Kim, Youngduck Choi 0.69
2020. Saint+: Integrating temporal features for ednet correctness prediction. 2020. Saint+: ednetの正確性予測のための時間的特徴の統合。 0.73
David Thissen and Robert J Mislevy. David ThissenとRobert J Mislevy。 0.81
2000. Testing algorithms. 2000. テスト アルゴリズム。 0.77
Josep Valls-Vargas, Jichen Zhu, and Santiago Onta˜n´on. Josep Valls-Vargas、Jichen Zhu、サンティアゴ・オンタ・オオン。 0.79
2017. Graph grammar-based controllable generation of puzzles for a learning game about parallel In Proceedings of the 12th Interprogramming. 2017. 第12回インタープログラミング手順における並列に関する学習ゲームのためのグラフ文法に基づく制御可能なパズル生成 0.76
national Conference on the Foundations of Digital Games, FDG ’17, New York, NY, USA. national conference on the foundations of digital games, fdg ’17, new york, ny, usa. (英語) 0.81
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
David J. Weiss and G. Gage Kingsbury. デビッド・J・ワイスとG・ゲイジ・キングズベリー。 0.52
1984. Application of computerized adaptive testing to educational problems. 1984. コンピュータ適応テストの教育問題への応用 0.78
In Journal of Educational Measurement. journal of educational measurementにて発表。 0.77
英語(論文から抽出)日本語訳スコア
Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander Rush. Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, Alexander Rush 0.81
2020. Transformers: State-of-the-art natural language processing. 2020. Transformers: 最先端の自然言語処理。 0.82
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 38–45, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, page 38–45, Online 0.84
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
A APPENDIX A.1 Dataset Details The 2018 Duolingo Shared Task on Second Language Acquisition Modeling (Settles et al , 2018) dataset contains questions and responses for Duolingo users over the first 30 days of learning a second language. A APPENDIX A.1 Dataset details 2018 Duolingo Shared Task on Second Language Acquisition Modeling (Settles et al , 2018)データセットには、第2言語を学ぶ最初の30日間のDuolingoユーザに対する質問と回答が含まれている。 0.88
The dataset contains three different question types: reverse translate (free response translation of a given prompt in the language they are learning), reverse tap (a selection-based equivalent of reverse translate), and listen, where students listen to a vocal utterance. データセットには3つの異なる質問タイプが含まれている: 逆翻訳(学習している言語における与えられたプロンプトの無料応答翻訳)、逆タップ(逆翻訳のセレクションベースの等価)、リスニング(学生が声の発声を聴く)。 0.80
We focus on the reverse translate question type for English-speaking students learning French and Spanish. 英語話者がフランス語とスペイン語を学ぶ場合の逆翻訳質問型に着目した。 0.64
The dataset size for French learners (1.2k users) is roughly half the size of that for Spanish learners (2.6k users). フランスの学習者(1.2kユーザ)のデータセットサイズは、スペインの学習者(2.6kユーザ)の約半分である。 0.76
Because the original dataset was intended for per-token error prediction, each question has per-token information that includes whether the student translated the token correctly, as well as Universal Dependencies tags such as part of speech and morphology labels. 元のデータセットは、トークンごとのエラー予測を意図していたため、各質問には、学生がトークンを正しく翻訳したかどうかを含む、トークンごとの情報と、スピーチや形態学ラベルなどのユニバーサル依存タグが含まれている。 0.59
We use the full question text, rather than individual tokens, for our task, and combine the labels such that if a Duolingo user incorrectly translated one or more tokens in a question, the entire question is marked incorrect. タスクには、個々のトークンではなく、完全な質問テキストを使用し、duolingoユーザが質問で1つ以上のトークンを誤って変換した場合、質問全体が間違ってマークされるようにラベルを組み合わせる。 0.72
We do not use any additional features. 追加機能は使用していません。 0.70
We use the publicly provided train/dev/test splits from the Shared Task, which are temporally ordered in sequence. 私たちは、シーケンシャルに順序づけられた共有タスクから、パブリックに提供されるTrain/dev/test分割を使用します。 0.56
We therefore construct student states by tracking user IDs throughout the datasets and appending each new question and response to the current student state. そこで我々は,データセット全体を通してユーザidを追跡し,新たな質問と回答を付加することで,学生状態を構築する。 0.76
When evaluating our LM-KT model, we use the true responses of preceding questions in the test set to form the student state for a given question. LM-KTモデルを評価する際には,テストセットの前の質問に対する真の応答を用いて,与えられた質問に対する学生の状態を形成する。 0.71
Overall, we find that the dataset is severely imbalanced (as in the original task) - about 30% of questions are answered incorrectly across students studying both French and Spanish. 全体として、データセットは(元のタスクのように)かなり不均衡であることが分かりました。フランス語とスペイン語を勉強している学生の間で、質問の約30%が誤って答えられます。 0.58
Finally, we create a held-out set of Duolingo questions for both French and Spanish learners to create the training data for our question generation model. 最後に、フランス語とスペイン語の両方の学習者が質問生成モデルのためのトレーニングデータを作成するために、Duolingo質問のホールドアウトセットを作成します。 0.70
From a set of random student states, we select questions from this set and use a trained LM-KT model to assign the difficulty score. ランダムな学生状態の集合から、この集合から質問を選択し、訓練されたLM-KTモデルを用いて難易度スコアを割り当てる。 0.63
In practice, this held-out set can come from any source, not just Duolingo data. 実際には、この保留セットはduolingoデータだけでなく、どのソースからも取得できる。 0.60
A.2 Model Training Details To train both our LM-KT knowledge tracing model and our question generation model, we use the pre-trained OpenAI GPT-2 model from the HuggingFace Transformers library (Wolf et al , 2020). A.2 モデルトレーニングの詳細 LM-KT知識追跡モデルと質問生成モデルの両方をトレーニングするために、HugingFace Transformersライブラリ(Wolf et al , 2020)からトレーニング済みのOpenAI GPT-2モデルを使用します。 0.78
For question generation, we modify the library to add a linear layer and the modified loss function for question generation from Section 3. 質問生成のために,第3節からの質問生成のための線形層と修正された損失関数を追加するためにライブラリを変更する。
訳抜け防止モード: 質問の生成のために 図書館を改造し 質問生成のための線形層及び修正損失関数をセクション3から付加する。
0.81
We use 1 NVIDIA TitanXP GPU with 12GB of memory available. 1台のnvidia titanxp gpuと12gbのメモリを使用します。 0.70
Because the maximum input sequence length of the GPT-2 model we use is 1024 tokens, we resize all inputs to the last 1024 tokens before training. GPT-2モデルの最大入力シーケンス長は1024トークンなので、トレーニング前にすべての入力を最後の1024トークンにリサイズします。 0.72
We report results for an LM-KT model trained for 13k steps with the default batch size of 2 and learning rate of 5e-5, and a Question Generation model trained for 25k steps with the same batch size and learning rate. 既定バッチサイズ2と学習率5e-5の13kステップを訓練したlm-ktモデルと,同じバッチサイズと学習率の25kステップを訓練した質問生成モデルについて報告する。 0.70
The total compute time to train both models was 2.5 hours for each language learning task. 両方のモデルをトレーニングする合計計算時間は、各言語学習タスクで2.5時間であった。 0.75
A.3 Question Generation Details For both French and Spanish question generation models, we select 15 students unseen during training and generate 30 questions across 9 difficulties from 0.1 to 0.9, using nucleus sampling (Holtzman et al , 2020) (p = 0.99) with a maximum output length of 20 tokens. a.3 質問生成の詳細 フランス語とスペイン語の両方の質問生成モデルについて、15人の学生を訓練中から選択し、最大出力長20トークンの核サンプリング(holtzman et al , 2020)を用いて、0.1から0.9までの9つの困難に対して30の質問を生成する。 0.73
We also vary a repetition penalty (Keskar et al , 2019) that penalizes for previous tokens (including those in the student state). また、過去のトークン(学生国家を含む)を罰する繰り返し罰(Keskar et al , 2019)も様々です。
訳抜け防止モード: 我々はまた、繰り返しの罰(Keskar et al, 2019)も異なる。 以前のトークン(学生状態を含む)に対してペナライズする。
0.75
Lastly, we resize all prompts (student state and target difficulty) to fit into the GPT-2 Model by taking the most recent 1024 tokens, as in training. 最後に、トレーニングのように最新の1024トークンを取り込み、GPT-2モデルに適合するように、すべてのプロンプト(学生の状態と目標難易度)をリサイズします。 0.71
This is a limitation of our work, as the full student history is not able to be considered for students who have answered a large set of questions. これは我々の仕事の限界であり、多くの質問に答えた学生にとって、学生の歴史全体は考慮できない。 0.69
英語(論文から抽出)日本語訳スコア
A.4 Additional Question Generation Outputs Our question generation model demonstrates the ability to generate novel questions that do not exist in the entire Duolingo question dataset, especially when a sampling penalty is applied to encourage more diverse outputs. a.4 追加の質問生成出力 我々の質問生成モデルは、duolingoの質問データセット全体において存在しない新しい質問を生成する能力を示しています。
訳抜け防止モード: A.4 質問生成のさらなる成果 質問生成モデルは、新しい質問を生成する能力を示す Duolingoの質問データセット全体には存在しない。 特に、より多様な出力を促進するためにサンプリングペナルティが適用される場合。
0.73
However, this comes at a cost to fluency. しかし、これはフルーエンシーにコストがかかる。 0.58
Below we include a set of outputs generated by our model for 1 Spanish student and 1 French student from the Duolingo dataset, with a target difficulty of d = 0.1, and both with and without a repetition penalty. 以下のモデルでは、duolingoデータセットから1人のスペイン人学生と1人のフランス人学生に対して、d = 0.1の目標難易度で、繰り返しペナルティを課すことなく、モデルが生成したアウトプットのセットを含みます。 0.67
We observe that while applying a penalty results in a far more novel questions generated, several of these are also non-fluent, using a combination of manual judgement and the Python language-check package (https://pypi.org/pr oject/language-check /). ペナルティを適用すると、はるかに新しい質問が生成されるが、手作業による判断とpython言語チェックパッケージ(https://pypi.org/pr oject/language-check /)の組み合わせを使って、これらのいくつかは非流動的である。 0.62
Table 4: Random selection of generated questions for one Spanish learner with for a a target difficulty of d = 0.1. 表4: 目標難易度d = 0.1のスペイン語学習者に対して生成された質問のランダム選択。 0.80
Italic questions are novel, bold questions are judged to be non-fluent. イタリックな質問は斬新で、大胆な質問は非流動であると判断される。 0.43
Spanish (w/ Penalty) accordingly he does it. スペイン人(w/ペナルティ)がそれを行う。 0.72
clean your room or close! clean your room! 部屋を掃除しろ! 部屋を掃除しろ! 0.65
he mixes coffee with water. 彼はコーヒーと水を混ぜます。 0.68
how many elephants eat cheese or fish? 象は何匹チーズや魚を食べますか。 0.62
i know about that book. 私はその本について知っている。 0.50
october finds him maximum distance from here today! 10月は ここから 最大距離を見つけます! 0.69
please clean your room! 部屋を掃除してください! 0.72
please open your bottle or newspaper? ボトルか新聞を開けてください。 0.64
she blames us! 彼女は我々を責める! 0.71
she reads us lunchtime newspapers. ランチタイムの新聞を読んでくれ 0.63
she reads your letters. 彼女はあなたの手紙を読む 0.66
those ducks drink water. アヒルは水を飲みます。 0.53
we can abandon him. what book have they Chosen me so far? 彼を放棄できる これまでの私を選んだ本は何冊ですか。 0.50
you can control her water. 彼女の水はコントロールできる 0.71
you can establish two properties. 2つの特性を確立できます 0.71
your house is very put- pretty! あなたの家はとてもきれいです。 0.74
previously on television you can create the menu. 前回までのテレビではメニューを作成できる。 0.77
you write letters. your hat is gray 手紙を書くんだ あなたの帽子は灰色です 0.64
Spanish (No Penalty) he mixes coffee with milk. スペイン人(無刑)はコーヒーと牛乳を混ぜる。 0.72
the cuts are not big. カットはあまり大きくありません。 0.69
the gallery is enormous. ギャラリーは巨大です。 0.74
the horses are not natural. 馬は自然ではありません。 0.64
the men drink a beer. 男性はビールを飲みます。 0.86
they probably do not think me. 彼らはおそらく私を信じないでしょう。 0.66
we can desk a book. from september to december according to you, it is yellow. 本をデスクできます あなたによると、9月から12月までは黄色です。 0.62
clean the mirror. i do not know it. 鏡を掃除しろ 知らないわ 0.51
i read the newspaper. 私はその新聞を読んだ。 0.61
i want a sandwich without cheese. 私はチーズなしでサンドイッチが欲しい。 0.76
june starts tomorrow. she reads the calendar. 明日から6月だ 彼女はカレンダーを読みます。 0.66
the plates are not big. プレートは大きくありません。 0.83
we are following the clue. 我々は手がかりに従っている 0.46
we drink quickly. 私たちはすぐに飲みます。 0.50
we eat strawberries. you can control the water. イチゴを食べます 水をコントロールできます 0.57
you can create the menu. メニューを作成できる。 0.59
you can establish a restaurant. レストランを予約できます。 0.47
英語(論文から抽出)日本語訳スコア
Table 5: Random selection of generated questions for one French learner with for a a target difficulty of d = 0.1. 表5: 目標難易度d = 0.1に対して、あるフランス語学習者が生成した質問のランダム選択。 0.76
Italic questions are novel, bold questions are judged to be non-fluent. イタリックな質問は斬新で、大胆な質問は非流動であると判断される。 0.43
French (w/ Penalty) do these children have beans? これらの子供たちには豆がありますか。 0.62
do they come here often? 彼らはよくここへ来ますか。 0.54
do we come here often or frequently? 頻繁に来るのか 頻繁に来るのか? 0.57
do we have chocolate or water? do we have coffee here or elsewhere? チョコでも水でも? ここかどこかでコーヒーを飲みますか。 0.60
do we have coffee together or onsocks do we like to walk distance from one-to two? コーヒーを一緒に飲むか、onsocksは1から2まで歩くのが好きですか? 0.72
do we like to walk together or apart? 一緒に歩きたいのか 離れたいのか? 0.71
do we speak soon or after tomorrow? 明日か明日の後に話しましょうか。 0.70
is he chinese or Russian? 彼は中国語かロシア語ですか。 0.62
is he chinese or french? 中国語かフランス語か? 0.69
is he sleeping or going out time? 寝てるの? 時間切れなの? 0.60
map ofis suggests an area. 地図は地域を示唆している。 0.66
otherwise if i want to eat vegetables or fish they regionally cheese, it’s meat. そうでなければ、野菜や魚が地域ごとにチーズを食べたいなら、それは肉だ。 0.68
some apples of your apple. where do we live today? リンゴのリンゴだ 今日はどこに住んでる? 0.57
where does he go after that jacket? あのジャケットは どこ行くの? 0.57
where does she go? 彼女はどこへ行ったの? 0.66
which ones do not fall victim to be sold? どれが 犠牲になっても 売れないんですか? 0.60
beans and bread corridor or window? 豆とパンの回廊か窓か? 0.74
neither do we! French (No Penalty) do you have three daughters? 俺たちもだ! フランス語(無罰) 娘は3人いますか. 0.69
do you like this? do you speak french? 気に入ったか? フランス語は話せる? 0.57
where do the children read? 子どもたちはどこで読むの? 0.78
do you come here often? あなたはよくここへ来ますか。 0.58
do you want to dance with me? some apples, which ones? 私と踊りたいの? リンゴはどれ? 0.43
corridor or window? neither do we! 廊下か窓か? 俺たちもだ! 0.68
you are important. you are important. あなたは重要よ あなたは重要よ 0.75
are we going to your place or mine? 俺たちはお前の所に行くのか 俺の所に行くのか? 0.36
corridor or window? do you have a boyfriend? 廊下か窓か? 彼氏いるの? 0.62
do you like to walk? あなたは歩くのが好きですか。 0.65
neither do we! otherwise, i want a child! 俺たちもだ! さもないと 子供が欲しいんだ! 0.68
the men are calm and rich. 男性は穏やかで金持ちです。 0.50
the parties are in august. パーティーは8月です。 0.62
we are reading your letters. 私たちはあなたの手紙を読んでいます。 0.47
where do we live? you eat pork and bread どこに住んでる? 豚肉とパンを食べます 0.68
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。