論文の概要: Text Complexity Classification Based on Linguistic Information:
Application to Intelligent Tutoring of ESL
- arxiv url: http://arxiv.org/abs/2001.01863v7
- Date: Wed, 29 Jul 2020 14:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 20:45:04.837354
- Title: Text Complexity Classification Based on Linguistic Information:
Application to Intelligent Tutoring of ESL
- Title(参考訳): 言語情報に基づくテキスト複雑性分類:eslの知的指導への応用
- Authors: M. Zakaria Kurdi
- Abstract要約: 本研究の目的は、英語を第二言語(ESL)学習者として教える文脈の中で、テキストの複雑さを識別できる分類器を構築することである。
ESLの専門家によって既に3つの難易度に分類されていた6171テキストのコーパスを用いて、5つの機械学習アルゴリズムを用いて異なる実験を行った。
その結果, 言語学的特徴は, 総合的な分類性能に優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to build a classifier that can identify text
complexity within the context of teaching reading to English as a Second
Language (ESL) learners. To present language learners with texts that are
suitable to their level of English, a set of features that can describe the
phonological, morphological, lexical, syntactic, discursive, and psychological
complexity of a given text were identified. Using a corpus of 6171 texts, which
had already been classified into three different levels of difficulty by ESL
experts, different experiments were conducted with five machine learning
algorithms. The results showed that the adopted linguistic features provide a
good overall classification performance (F-Score = 0.97). A scalability
evaluation was conducted to test if such a classifier could be used within real
applications, where it can be, for example, plugged into a search engine or a
web-scraping module. In this evaluation, the texts in the test set are not only
different from those from the training set but also of different types (ESL
texts vs. children reading texts). Although the overall performance of the
classifier decreased significantly (F-Score = 0.65), the confusion matrix shows
that most of the classification errors are between the classes two and three
(the middle-level classes) and that the system has a robust performance in
categorizing texts of class one and four. This behavior can be explained by the
difference in classification criteria between the two corpora. Hence, the
observed results confirm the usability of such a classifier within a real-world
application.
- Abstract(参考訳): 本研究の目的は,英語を第二言語(ESL)学習者として教える文脈内で,テキストの複雑さを識別できる分類器を構築することである。
言語学習者が英語のレベルに適したテキストを提示するために、与えられたテキストの音韻論的、形態学的、語彙的、構文的、解約的、心理的複雑さを記述できる一連の特徴を同定した。
ESLの専門家によって既に3つの難易度に分類されていた6171テキストのコーパスを用いて、5つの機械学習アルゴリズムを用いて異なる実験を行った。
その結果, 言語学的特徴は総合的分類性能(F-Score = 0.97)に優れていた。
スケーラビリティ評価は、そのような分類器が実際のアプリケーションで使用できるかどうかをテストするために行われ、例えば、検索エンジンやwebスクレイピングモジュールにプラグインできる。
この評価では、テストセット内のテキストはトレーニングセットと異なるだけでなく、異なるタイプのテキスト(eslテキストと子どもたちがテキストを読むこと)である。
分類器の全体的な性能は著しく低下したが(f-score = 0.65)、混乱行列は分類誤差のほとんどがクラス2とクラス3(中間レベルクラス)の間にあり、システムはクラス1とクラス4のテキストの分類において堅牢な性能を示している。
この挙動は、2つのコーパスの分類基準の違いによって説明できる。
その結果,実世界のアプリケーションにおいて,そのような分類器のユーザビリティを確認した。
関連論文リスト
- Enhancing Multilingual Voice Toxicity Detection with Speech-Text Alignment [4.2936749846785345]
音声の毒性分類は、音声の意味的内容に大きく依存する。
テキストのセマンティック埋め込みを多ラベル音声毒性分類器に組み込むために,クロスモーダル学習を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:56:53Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Large Language Models Are Zero-Shot Text Classifiers [3.617781755808837]
大規模言語モデル(LLM)は、自然言語処理(NLP)の様々なサブカテゴリで広く使われている。
NLPでは、テキスト分類の問題はかなりの焦点が当てられているが、高価な計算コスト、時間消費、目に見えないクラスに対する堅牢なパフォーマンスに関連するいくつかの制限に直面している。
思考促進チェーン(CoT)の提案により、ステップ推論プロンプトを用いてゼロショット学習(ZSL)を用いてLLMを実装できる。
論文 参考訳(メタデータ) (2023-12-02T06:33:23Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Efficient Measuring of Readability to Improve Documents Accessibility
for Arabic Language Learners [0.0]
この手法は、テキストの読みと理解の難易度を区別する機械学習の分類法に基づいている。
いくつかのモデルは、オンラインアラビアのウェブサイトから採掘された巨大なコーパスで訓練され、手動で注釈付けされた。
TF-IDFベクトルは単語ベースのユニグラムとビッグラムの組み合わせで訓練され、全体的な精度は4種類の複雑性に対して87.14%であった。
論文 参考訳(メタデータ) (2021-09-09T10:05:38Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。