論文の概要: GrammarTagger: A Multilingual, Minimally-Supervised Grammar Profiler for
Language Education
- arxiv url: http://arxiv.org/abs/2104.03190v1
- Date: Wed, 7 Apr 2021 15:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:55:32.467356
- Title: GrammarTagger: A Multilingual, Minimally-Supervised Grammar Profiler for
Language Education
- Title(参考訳): grammartagger: 言語教育のための多言語・最小教師付き文法プロファイラ
- Authors: Masato Hagiwara, Joshua Tanner, Keisuke Sakaguchi
- Abstract要約: GrammarTaggerは、入力テキストを与えられたオープンソースの文法プロファイラで、言語教育に有用な文法的特徴を特定します。
モデルアーキテクチャにより、スパンとそのラベルで注釈付けされた少量のテキストから学ぶことができる。
また,その読解困難度と文法的特徴を指標とした言語学習教材の検索エンジン octanove learn を構築した。
- 参考スコア(独自算出の注目度): 7.517366022163375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GrammarTagger, an open-source grammar profiler which, given an
input text, identifies grammatical features useful for language education. The
model architecture enables it to learn from a small amount of texts annotated
with spans and their labels, which 1) enables easier and more intuitive
annotation, 2) supports overlapping spans, and 3) is less prone to error
propagation, compared to complex hand-crafted rules defined on
constituency/dependency parses. We show that we can bootstrap a grammar
profiler model with $F_1 \approx 0.6$ from only a couple hundred sentences both
in English and Chinese, which can be further boosted via learning a
multilingual model. With GrammarTagger, we also build Octanove Learn, a search
engine of language learning materials indexed by their reading difficulty and
grammatical features. The code and pretrained models are publicly available at
\url{https://github.com/octanove/grammartagger}.
- Abstract(参考訳): 言語教育に有用な文法的特徴を,入力テキストから識別する,オープンソースの文法プロファイラであるgrammartaggerを提案する。
モデルアーキテクチャは、スパンとそのラベルで注釈付けされた少量のテキストから学習することが可能であり、1) より簡単で直感的なアノテーション、2) 重複するスパンをサポートし、3) 選挙区/依存性のパースで定義された複雑な手作りの規則に比べてエラーの伝播がより少ない。
英語と中国語の両方の数百文のみから$f_1 \approx 0.6$で文法プロファイラモデルをブートストラップできることを示した。
またGrammarTaggerでは,読み難易度と文法的特徴を指標とした,言語学習教材の検索エンジンであるOctanove Learnを構築した。
コードと事前トレーニングされたモデルは \url{https://github.com/octanove/grammartagger} で公開されている。
関連論文リスト
- Sparse Logistic Regression with High-order Features for Automatic Grammar Rule Extraction from Treebanks [6.390468088226495]
本研究では,木バンクから重要な粒度の文法パターンを抽出し,探索する手法を提案する。
我々は,異なる言語にまたがる記述や規則を抽出し,合意と語順の2つの言語現象について考察する。
我々の手法は、スペイン語、フランス語、ウーロフにおける有名な文法規則とあまり知られていない重要な文法規則の両方を捉えている。
論文 参考訳(メタデータ) (2024-03-26T09:39:53Z) - Multilingual BERT has an accent: Evaluating English influences on
fluency in multilingual models [23.62852626011989]
我々は,高次情報源言語における文法構造が低次情報源言語に肥大化したことを示す。
このバイアスは、多言語モデルの流布度とモノリンガルのスペイン語とギリシア語のモデルの流布度を比較する新しい方法によって示される。
論文 参考訳(メタデータ) (2022-10-11T17:06:38Z) - Towards Lithuanian grammatical error correction [0.0]
我々は古風な特徴に富んだリトアニア語に対する文法的誤り訂正モデルを構築した。
サブワードとバイトレベルのアプローチを比較し、最高のトレーニングモデルを共有し、F$_0.5$=0.92を達成し、関連するコードをオンラインオープンソースリポジトリで共有します。
論文 参考訳(メタデータ) (2022-03-18T13:59:02Z) - Learning grammar with a divide-and-concur neural network [4.111899441919164]
本研究では,文脈自由文法推論に対する分割・コンカレント反復予測手法を実装した。
本手法は比較的少数の離散パラメータを必要とするため,推測文法を直接解釈可能である。
論文 参考訳(メタデータ) (2022-01-18T22:42:43Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - VLGrammar: Grounded Grammar Induction of Vision and Language [86.88273769411428]
共同学習枠組みにおける視覚と言語の基底文法誘導について検討する。
本稿では,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。
論文 参考訳(メタデータ) (2021-03-24T04:05:08Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Making Monolingual Sentence Embeddings Multilingual using Knowledge
Distillation [73.65237422910738]
既存の文埋め込みモデルを新しい言語に拡張する,簡単かつ効率的な手法を提案する。
これにより、以前のモノリンガルモデルから多言語バージョンを作成することができる。
論文 参考訳(メタデータ) (2020-04-21T08:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。