論文の概要: Learning from Partially Annotated Data: Example-aware Creation of
Gap-filling Exercises for Language Learning
- arxiv url: http://arxiv.org/abs/2306.01584v2
- Date: Thu, 15 Jun 2023 10:23:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 00:09:15.662000
- Title: Learning from Partially Annotated Data: Example-aware Creation of
Gap-filling Exercises for Language Learning
- Title(参考訳): 部分注釈データからの学習--言語学習のためのギャップ充足演習の例-
- Authors: Semere Kiros Bitew, Johannes Deleu, A. Seza Do\u{g}ru\"oz, Chris
Develder, Thomas Demeester
- Abstract要約: 本稿では,言語学習,特に文法演習のためのギャップ埋め演習の自動作成に着目する。
i) 上記のギャップ充足運動生成タスクに特化して設計された新しいニューラルネットワークアーキテクチャ、および(ii) フランス語文法のための実世界のベンチマークデータセットをコントリビュートする。
モデル実装とデータセットは今後の研究を促進するために公開されており、文法演習作成における部分注釈付きデータ予測タスクの標準化された評価とベースラインソリューションを提供する。
- 参考スコア(独自算出の注目度): 19.43668931500507
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Since performing exercises (including, e.g., practice tests) forms a crucial
component of learning, and creating such exercises requires non-trivial effort
from the teacher, there is a great value in automatic exercise generation in
digital tools in education. In this paper, we particularly focus on automatic
creation of gapfilling exercises for language learning, specifically grammar
exercises. Since providing any annotation in this domain requires human expert
effort, we aim to avoid it entirely and explore the task of converting existing
texts into new gap-filling exercises, purely based on an example exercise,
without explicit instruction or detailed annotation of the intended grammar
topics. We contribute (i) a novel neural network architecture specifically
designed for aforementioned gap-filling exercise generation task, and (ii) a
real-world benchmark dataset for French grammar. We show that our model for
this French grammar gap-filling exercise generation outperforms a competitive
baseline classifier by 8% in F1 percentage points, achieving an average F1
score of 82%. Our model implementation and the dataset are made publicly
available to foster future research, thus offering a standardized evaluation
and baseline solution of the proposed partially annotated data prediction task
in grammar exercise creation.
- Abstract(参考訳): エクササイズ(例えば、実践テストを含む)を実施することは学習の重要な要素であり、そのようなエクササイズを作成するには教師の非自明な努力が必要であるため、教育におけるデジタルツールにおける自動エクササイズ生成には大きな価値がある。
本稿では,特に言語学習,特に文法演習のためのギャップ埋め演習の自動作成に焦点を当てる。
この領域にいかなるアノテーションも人的専門家の努力を必要とするため、我々は、意図した文法トピックの明示的な指示や詳細なアノテーションを使わずに、既存のテキストを純粋にサンプルエクササイズに基づいて、新しいギャップを埋めるエクササイズに変換するタスクを、完全に回避することを目的としている。
貢献します
(i)上記ギャップ充足運動生成タスク専用に設計された新規ニューラルネットワークアーキテクチャ、及び
(ii)フランス語文法のための実世界のベンチマークデータセット。
この文法ギャップを埋めるエクササイズ生成のための我々のモデルは、F1パーセンテージポイントにおいて競合ベースライン分類器を8%上回り、平均F1スコアが82%であることを示す。
我々のモデル実装とデータセットは,今後の研究を促進するために公開され,文法演習作成において提案する部分注釈データ予測タスクの標準化された評価とベースラインソリューションを提供する。
関連論文リスト
- Zero-shot prompt-based classification: topic labeling in times of foundation models in German Tweets [1.734165485480267]
そこで,本論文では,文章ガイドラインを用いてテキストを自動的に注釈付けするツールについて,トレーニングサンプルを提供することなく提案する。
提案手法は細調整されたBERTに匹敵するが,アノテートしたトレーニングデータはない。
本研究は,NLPランドスケープにおける進行中のパラダイムシフト,すなわち下流タスクの統一と事前ラベル付きトレーニングデータの必要性の排除を強調した。
論文 参考訳(メタデータ) (2024-06-26T10:44:02Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Large Language Model Augmented Exercise Retrieval for Personalized
Language Learning [2.946562343070891]
ベクトル類似性アプローチは,学習者が学習したいことを表現するために使用するエクササイズコンテンツと言語との関係を,不十分に捉えていることがわかった。
我々は,学習者の入力に基づいて仮説的演習を合成することにより,大きな言語モデルの生成能力を活用してギャップを埋める。
我々はmHyERと呼ぶアプローチを,(1)学習における関連ラベルの欠如,(2)制限なし学習者の入力内容,(3)入力候補と検索候補とのセマンティックな類似性の低さという3つの課題を克服する。
論文 参考訳(メタデータ) (2024-02-08T20:35:31Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Annotated Dataset Creation through General Purpose Language Models for
non-English Medical NLP [0.5482532589225552]
我々の研究では、事前訓練された言語モデルをデータ取得のトレーニングに活用することを提案する。
我々は、ドイツのテキストであるGPTNERMEDの医療用NERモデルをトレーニングするために使用するカスタムデータセットを作成します。
論文 参考訳(メタデータ) (2022-08-30T18:42:55Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Machine Translation Pre-training for Data-to-Text Generation -- A Case
Study in Czech [5.609443065827995]
非英語言語におけるデータ・テキスト生成における機械翻訳に基づく事前学習の有効性について検討する。
事前トレーニングによって、パフォーマンスを大幅に向上したエンドツーエンドモデルのトレーニングが可能になります。
論文 参考訳(メタデータ) (2020-04-05T02:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。