論文の概要: Application of Lexical Features Towards Improvement of Filipino
Readability Identification of Children's Literature
- arxiv url: http://arxiv.org/abs/2101.10537v1
- Date: Fri, 22 Jan 2021 19:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 20:10:02.357328
- Title: Application of Lexical Features Towards Improvement of Filipino
Readability Identification of Children's Literature
- Title(参考訳): 児童文学のフィリピン可読性向上に向けた語彙的特徴の適用
- Authors: Joseph Marvin Imperial, Ethel Ong
- Abstract要約: フィリピン語で書かれた児童書の読みやすさの向上に向けた語彙的特徴の利用を検討する。
その結果,タイプトケン比,語彙密度,語彙変動,異語数と従来の特徴(TRAD)を組み合わせた語彙特徴(LEX)を組み合わせることで,可読性モデルの性能を約5%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proper identification of grade levels of children's reading materials is an
important step towards effective learning. Recent studies in readability
assessment for the English domain applied modern approaches in natural language
processing (NLP) such as machine learning (ML) techniques to automate the
process. There is also a need to extract the correct linguistic features when
modeling readability formulas. In the context of the Filipino language, limited
work has been done [1, 2], especially in considering the language's lexical
complexity as main features. In this paper, we explore the use of lexical
features towards improving the development of readability identification of
children's books written in Filipino. Results show that combining lexical
features (LEX) consisting of type-token ratio, lexical density, lexical
variation, foreign word count with traditional features (TRAD) used by previous
works such as sentence length, average syllable length, polysyllabic words,
word, sentence, and phrase counts increased the performance of readability
models by almost a 5% margin (from 42% to 47.2%). Further analysis and ranking
of the most important features were shown to identify which features contribute
the most in terms of reading complexity.
- Abstract(参考訳): 児童の読書教材の適度な識別は,効果的な学習に向けた重要なステップである。
英語領域における可読性評価の最近の研究は、機械学習(ML)技術などの自然言語処理(NLP)に現代的なアプローチを適用してプロセスを自動化する。
また、可読性の公式をモデル化するときに正しい言語的特徴を抽出する必要もある。
フィリピン語の文脈では、特に語彙の複雑さを主な特徴として考慮して、限られた作業が [1, 2] 行われている。
本稿では,フィリピン語で書かれた児童書の可読性識別性向上のための語彙特徴の利用について検討する。
その結果, 文長, 平均音節長, 多音節語, 単語, 文数, 句数など, 従来からある特徴量 (TRAD) を用いた語彙的特徴量 (LEX) は, 可読性モデルの性能をほぼ5%(42%から47.2%)向上させた。
最も重要な機能のさらなる分析とランキングが示され、どの機能が読みの複雑さの点で最も寄与するかが特定された。
関連論文リスト
- A Distributional Perspective on Word Learning in Neural Language Models [57.41607944290822]
言語モデルにおける単語学習のための広く合意されたメトリクスは存在しない。
我々は、先行研究で研究された分布シグネチャは、重要な分布情報の取得に失敗すると主張している。
我々は、スクラッチから訓練する小さな言語モデルを選択するための学習軌跡を得る。
論文 参考訳(メタデータ) (2025-02-09T13:15:59Z) - Devising a Set of Compact and Explainable Spoken Language Feature for Screening Alzheimer's Disease [52.46922921214341]
アルツハイマー病(AD)は高齢化社会において最も重要な健康問題の一つとなっている。
我々は,大言語モデル(LLM)とTF-IDFモデルの視覚的機能を活用する,説明可能な効果的な機能セットを考案した。
当社の新機能は、自動ADスクリーニングの解釈可能性を高めるステップバイステップで説明し、解釈することができる。
論文 参考訳(メタデータ) (2024-11-28T05:23:22Z) - Automatic Readability Assessment for Closely Related Languages [6.233117407988574]
この研究は、相互の知性や言語関連度などの言語的側面が、低リソース環境でのARAをどのように改善できるかに焦点を当てる。
フィリピン・タガログ語・ビコル語・セブアーノ語の3言語で書かれた短い記事を収集し,読みやすさ評価モデルを構築した。
本研究は, 相互信頼度の高い言語にn-gram重み付けを適用した新たな機能であるCrossNGOの導入により, ARAモデルの性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-05-22T20:42:53Z) - A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文 参考訳(メタデータ) (2022-10-19T10:06:03Z) - Unravelling Interlanguage Facts via Explainable Machine Learning [10.71581852108984]
我々は、説明可能な機械学習アルゴリズムによって訓練されたNLI分類器の内部に焦点をあてる。
我々は、この視点を用いて、NLIと相補的なタスクの両方に対処し、テキストがネイティブまたは非ネイティブ話者によって書かれたかどうかを推測する。
話者のL1を最も示唆する2つの課題を解くのに最も有効な言語特性について検討する。
論文 参考訳(メタデータ) (2022-08-02T14:05:15Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Diverse Linguistic Features for Assessing Reading Difficulty of
Educational Filipino Texts [0.0]
本稿では,フィリピンの教育用テキストの自動可読性評価モデルの開発について述べる。
その結果,ランダムフォレストモデルを用いた場合の精度は62.7%であった。
論文 参考訳(メタデータ) (2021-07-31T13:59:46Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。
我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文 参考訳(メタデータ) (2020-10-12T14:24:01Z) - Linguistic Features for Readability Assessment [0.0]
言語的に動機づけられた特徴を持つディープラーニングモデルを強化することで、パフォーマンスがさらに向上するかどうかは不明だ。
十分なトレーニングデータから、言語的に動機づけられた特徴を持つディープラーニングモデルを増強しても、最先端のパフォーマンスは向上しないことがわかった。
本研究は,現在最先端のディープラーニングモデルが可読性に関連するテキストの言語的特徴を表現しているという仮説の予備的証拠を提供する。
論文 参考訳(メタデータ) (2020-05-30T22:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。