Fugu-MT 論文翻訳(概要): Application of Lexical Features Towards Improvement of Filipino Readability Identification of Children's Literature

論文の概要: Application of Lexical Features Towards Improvement of Filipino Readability Identification of Children's Literature

arxiv url: http://arxiv.org/abs/2101.10537v1
Date: Fri, 22 Jan 2021 19:54:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-20 20:10:02.357328
Title: Application of Lexical Features Towards Improvement of Filipino Readability Identification of Children's Literature
Title（参考訳）: 児童文学のフィリピン可読性向上に向けた語彙的特徴の適用
Authors: Joseph Marvin Imperial, Ethel Ong
Abstract要約: フィリピン語で書かれた児童書の読みやすさの向上に向けた語彙的特徴の利用を検討する。その結果,タイプトケン比,語彙密度,語彙変動,異語数と従来の特徴(TRAD)を組み合わせた語彙特徴(LEX)を組み合わせることで,可読性モデルの性能を約5%向上した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Proper identification of grade levels of children's reading materials is an important step towards effective learning. Recent studies in readability assessment for the English domain applied modern approaches in natural language processing (NLP) such as machine learning (ML) techniques to automate the process. There is also a need to extract the correct linguistic features when modeling readability formulas. In the context of the Filipino language, limited work has been done [1, 2], especially in considering the language's lexical complexity as main features. In this paper, we explore the use of lexical features towards improving the development of readability identification of children's books written in Filipino. Results show that combining lexical features (LEX) consisting of type-token ratio, lexical density, lexical variation, foreign word count with traditional features (TRAD) used by previous works such as sentence length, average syllable length, polysyllabic words, word, sentence, and phrase counts increased the performance of readability models by almost a 5% margin (from 42% to 47.2%). Further analysis and ranking of the most important features were shown to identify which features contribute the most in terms of reading complexity.
Abstract（参考訳）: 児童の読書教材の適度な識別は,効果的な学習に向けた重要なステップである。英語領域における可読性評価の最近の研究は、機械学習(ML)技術などの自然言語処理(NLP)に現代的なアプローチを適用してプロセスを自動化する。また、可読性の公式をモデル化するときに正しい言語的特徴を抽出する必要もある。フィリピン語の文脈では、特に語彙の複雑さを主な特徴として考慮して、限られた作業が [1, 2] 行われている。本稿では,フィリピン語で書かれた児童書の可読性識別性向上のための語彙特徴の利用について検討する。その結果, 文長, 平均音節長, 多音節語, 単語, 文数, 句数など, 従来からある特徴量 (TRAD) を用いた語彙的特徴量 (LEX) は, 可読性モデルの性能をほぼ5%(42%から47.2%)向上させた。最も重要な機能のさらなる分析とランキングが示され、どの機能が読みの複雑さの点で最も寄与するかが特定された。

関連論文リスト

Feature-based analysis of oral narratives from Afrikaans and isiXhosa children [14.74555743937968]
我々は,4歳から5歳のアフリカーンスとイシクソサ語を話す子供たちの話を分析した。語彙の多様性(一意的な単語)と長さに基づく特徴(平均発話長)を典型的な発達の指標として同定する。目標指向のストーリーテリングに関連する特定の動詞と補助詞の使用は、介入を必要とする可能性の低減と相関する。
論文参考訳（メタデータ） (2025-07-17T14:31:32Z)
A Distributional Perspective on Word Learning in Neural Language Models [57.41607944290822]
言語モデルにおける単語学習のための広く合意されたメトリクスは存在しない。我々は、先行研究で研究された分布シグネチャは、重要な分布情報の取得に失敗すると主張している。我々は、スクラッチから訓練する小さな言語モデルを選択するための学習軌跡を得る。
論文参考訳（メタデータ） (2025-02-09T13:15:59Z)
Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文参考訳（メタデータ） (2024-07-02T14:51:20Z)
Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文参考訳（メタデータ） (2024-01-20T20:55:21Z)
Turkish Native Language Identification V2 [1.7802147489386628]
本稿では,トルコ語に対するNative Language Identification (NLI) の最初の応用について述べる。我々はアルバニア語、アラビア語、ペルシア語の母語話者によって書かれたテキストのコーパスを分析する。我々のモデルは有望な結果を得ることができ、最も予測可能な特徴を分析してL1特異的な伝達効果を明らかにする。
論文参考訳（メタデータ） (2023-07-27T13:28:31Z)
Automatic Readability Assessment for Closely Related Languages [6.233117407988574]
この研究は、相互の知性や言語関連度などの言語的側面が、低リソース環境でのARAをどのように改善できるかに焦点を当てる。フィリピン・タガログ語・ビコル語・セブアーノ語の3言語で書かれた短い記事を収集し,読みやすさ評価モデルを構築した。本研究は, 相互信頼度の高い言語にn-gram重み付けを適用した新たな機能であるCrossNGOの導入により, ARAモデルの性能が大幅に向上したことを示す。
論文参考訳（メタデータ） (2023-05-22T20:42:53Z)
A Linguistic Investigation of Machine Learning based Contradiction Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文参考訳（メタデータ） (2022-10-19T10:06:03Z)
Unravelling Interlanguage Facts via Explainable Machine Learning [10.71581852108984]
我々は、説明可能な機械学習アルゴリズムによって訓練されたNLI分類器の内部に焦点をあてる。我々は、この視点を用いて、NLIと相補的なタスクの両方に対処し、テキストがネイティブまたは非ネイティブ話者によって書かれたかどうかを推測する。話者のL1を最も示唆する2つの課題を解くのに最も有効な言語特性について検討する。
論文参考訳（メタデータ） (2022-08-02T14:05:15Z)
Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。標準ベンチマークの大幅な向上を報告します。
論文参考訳（メタデータ） (2022-04-30T13:23:16Z)
A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文参考訳（メタデータ） (2022-01-20T15:01:12Z)
Diverse Linguistic Features for Assessing Reading Difficulty of Educational Filipino Texts [0.0]
本稿では,フィリピンの教育用テキストの自動可読性評価モデルの開発について述べる。その結果,ランダムフォレストモデルを用いた場合の精度は62.7%であった。
論文参考訳（メタデータ） (2021-07-31T13:59:46Z)
Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。本稿では,ラベルのないデータを利用して性能を向上する。
論文参考訳（メタデータ） (2021-05-08T08:04:30Z)
Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文参考訳（メタデータ） (2020-11-15T17:54:49Z)
Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文参考訳（メタデータ） (2020-10-12T14:24:01Z)
Linguistic Features for Readability Assessment [0.0]
言語的に動機づけられた特徴を持つディープラーニングモデルを強化することで、パフォーマンスがさらに向上するかどうかは不明だ。十分なトレーニングデータから、言語的に動機づけられた特徴を持つディープラーニングモデルを増強しても、最先端のパフォーマンスは向上しないことがわかった。本研究は,現在最先端のディープラーニングモデルが可読性に関連するテキストの言語的特徴を表現しているという仮説の予備的証拠を提供する。
論文参考訳（メタデータ） (2020-05-30T22:14:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。