論文の概要: Application of Lexical Features Towards Improvement of Filipino
Readability Identification of Children's Literature
- arxiv url: http://arxiv.org/abs/2101.10537v1
- Date: Fri, 22 Jan 2021 19:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 20:10:02.357328
- Title: Application of Lexical Features Towards Improvement of Filipino
Readability Identification of Children's Literature
- Title(参考訳): 児童文学のフィリピン可読性向上に向けた語彙的特徴の適用
- Authors: Joseph Marvin Imperial, Ethel Ong
- Abstract要約: フィリピン語で書かれた児童書の読みやすさの向上に向けた語彙的特徴の利用を検討する。
その結果,タイプトケン比,語彙密度,語彙変動,異語数と従来の特徴(TRAD)を組み合わせた語彙特徴(LEX)を組み合わせることで,可読性モデルの性能を約5%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proper identification of grade levels of children's reading materials is an
important step towards effective learning. Recent studies in readability
assessment for the English domain applied modern approaches in natural language
processing (NLP) such as machine learning (ML) techniques to automate the
process. There is also a need to extract the correct linguistic features when
modeling readability formulas. In the context of the Filipino language, limited
work has been done [1, 2], especially in considering the language's lexical
complexity as main features. In this paper, we explore the use of lexical
features towards improving the development of readability identification of
children's books written in Filipino. Results show that combining lexical
features (LEX) consisting of type-token ratio, lexical density, lexical
variation, foreign word count with traditional features (TRAD) used by previous
works such as sentence length, average syllable length, polysyllabic words,
word, sentence, and phrase counts increased the performance of readability
models by almost a 5% margin (from 42% to 47.2%). Further analysis and ranking
of the most important features were shown to identify which features contribute
the most in terms of reading complexity.
- Abstract(参考訳): 児童の読書教材の適度な識別は,効果的な学習に向けた重要なステップである。
英語領域における可読性評価の最近の研究は、機械学習(ML)技術などの自然言語処理(NLP)に現代的なアプローチを適用してプロセスを自動化する。
また、可読性の公式をモデル化するときに正しい言語的特徴を抽出する必要もある。
フィリピン語の文脈では、特に語彙の複雑さを主な特徴として考慮して、限られた作業が [1, 2] 行われている。
本稿では,フィリピン語で書かれた児童書の可読性識別性向上のための語彙特徴の利用について検討する。
その結果, 文長, 平均音節長, 多音節語, 単語, 文数, 句数など, 従来からある特徴量 (TRAD) を用いた語彙的特徴量 (LEX) は, 可読性モデルの性能をほぼ5%(42%から47.2%)向上させた。
最も重要な機能のさらなる分析とランキングが示され、どの機能が読みの複雑さの点で最も寄与するかが特定された。
関連論文リスト
- Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Automatic Readability Assessment for Closely Related Languages [6.233117407988574]
この研究は、相互の知性や言語関連度などの言語的側面が、低リソース環境でのARAをどのように改善できるかに焦点を当てる。
フィリピン・タガログ語・ビコル語・セブアーノ語の3言語で書かれた短い記事を収集し,読みやすさ評価モデルを構築した。
本研究は, 相互信頼度の高い言語にn-gram重み付けを適用した新たな機能であるCrossNGOの導入により, ARAモデルの性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-05-22T20:42:53Z) - A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文 参考訳(メタデータ) (2022-10-19T10:06:03Z) - Unravelling Interlanguage Facts via Explainable Machine Learning [10.71581852108984]
我々は、説明可能な機械学習アルゴリズムによって訓練されたNLI分類器の内部に焦点をあてる。
我々は、この視点を用いて、NLIと相補的なタスクの両方に対処し、テキストがネイティブまたは非ネイティブ話者によって書かれたかどうかを推測する。
話者のL1を最も示唆する2つの課題を解くのに最も有効な言語特性について検討する。
論文 参考訳(メタデータ) (2022-08-02T14:05:15Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Diverse Linguistic Features for Assessing Reading Difficulty of
Educational Filipino Texts [0.0]
本稿では,フィリピンの教育用テキストの自動可読性評価モデルの開発について述べる。
その結果,ランダムフォレストモデルを用いた場合の精度は62.7%であった。
論文 参考訳(メタデータ) (2021-07-31T13:59:46Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。
我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文 参考訳(メタデータ) (2020-10-12T14:24:01Z) - Linguistic Features for Readability Assessment [0.0]
言語的に動機づけられた特徴を持つディープラーニングモデルを強化することで、パフォーマンスがさらに向上するかどうかは不明だ。
十分なトレーニングデータから、言語的に動機づけられた特徴を持つディープラーニングモデルを増強しても、最先端のパフォーマンスは向上しないことがわかった。
本研究は,現在最先端のディープラーニングモデルが可読性に関連するテキストの言語的特徴を表現しているという仮説の予備的証拠を提供する。
論文 参考訳(メタデータ) (2020-05-30T22:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。