論文の概要: Simple or Complex? Learning to Predict Readability of Bengali Texts
- arxiv url: http://arxiv.org/abs/2012.07701v1
- Date: Wed, 9 Dec 2020 01:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 15:07:01.143158
- Title: Simple or Complex? Learning to Predict Readability of Bengali Texts
- Title(参考訳): シンプルか複雑か?
ベンガルテキストの可読性予測のための学習
- Authors: Susmoy Chakraborty, Mir Tafseer Nayeem, Wasi Uddin Ahmad
- Abstract要約: ベンガル語で書かれたテキストを解析できる可読性解析ツールを提案する。
2億3000万人のネイティブスピーカーを持つ世界で7番目に話されている言語であるにもかかわらず、ベンガル語は自然言語処理の基本的なリソースが不足している。
- 参考スコア(独自算出の注目度): 6.860272388539321
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Determining the readability of a text is the first step to its
simplification. In this paper, we present a readability analysis tool capable
of analyzing text written in the Bengali language to provide in-depth
information on its readability and complexity. Despite being the 7th most
spoken language in the world with 230 million native speakers, Bengali suffers
from a lack of fundamental resources for natural language processing.
Readability related research of the Bengali language so far can be considered
to be narrow and sometimes faulty due to the lack of resources. Therefore, we
correctly adopt document-level readability formulas traditionally used for U.S.
based education system to the Bengali language with a proper age-to-age
comparison. Due to the unavailability of large-scale human-annotated corpora,
we further divide the document-level task into sentence-level and experiment
with neural architectures, which will serve as a baseline for the future works
of Bengali readability prediction. During the process, we present several
human-annotated corpora and dictionaries such as a document-level dataset
comprising 618 documents with 12 different grade levels, a large-scale
sentence-level dataset comprising more than 96K sentences with simple and
complex labels, a consonant conjunct count algorithm and a corpus of 341 words
to validate the effectiveness of the algorithm, a list of 3,396 easy words, and
an updated pronunciation dictionary with more than 67K words. These resources
can be useful for several other tasks of this low-resource language. We make
our Code & Dataset publicly available at
https://github.com/tafseer-nayeem/BengaliReadability} for reproduciblity.
- Abstract(参考訳): テキストの可読性を決定することは、その単純化の第一歩である。
本稿では,ベンガル語で書かれたテキストを解析し,読みやすさと複雑さに関する詳細な情報を提供する可読性解析ツールを提案する。
2億3000万人のネイティブスピーカーを持つ世界で7番目に話されている言語であるにもかかわらず、ベンガル語は自然言語処理の基本的なリソースが不足している。
ベンガル語の可読性に関する研究は、資源不足のため、狭く、時には欠陥があると見なすことができる。
そこで本研究では,米国の教育システムで伝統的に用いられている文書レベルの可読性式をベンガル語に正しく適用し,年齢と年齢の比較を行った。
大規模なコーパスが利用できないため、文書レベルのタスクを文レベルに分割し、ベンガル可読性予測の将来の作業のベースラインとなるニューラルアーキテクチャを実験する。
この過程では、12のグレードレベルを持つ618の文書からなる文書レベルデータセット、単純で複雑なラベルを持つ96K以上の文からなる大規模文レベルデータセット、そのアルゴリズムの有効性を検証するための子音接続数アルゴリズムと341ワードのコーパス、3,396単語のリスト、67K以上の単語を含む更新された発音辞書など、人称コーパスと辞書を提示する。
これらのリソースは、この低リソース言語の他のいくつかのタスクに役立ちます。
Code & Dataset を reproduciblity のために https://github.com/tafseer-nayeem/BengaliReadability} で公開しています。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Initial Decoding with Minimally Augmented Language Model for Improved Lattice Rescoring in Low Resource ASR [0.532018200832244]
本稿では,低リソース言語における格子再構成による音声認識精度向上の問題に対処する。
対象言語のより大きなテキストコーパスに存在するが、ベースラインには存在しない単語ユニグラム数でベースライン言語モデルを最小化する。
提案手法を用いて,21.8% (Telugu) と41.8% (Kannada) の単語誤りを削減した。
論文 参考訳(メタデータ) (2024-03-16T14:34:31Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Bengali Handwritten Grapheme Classification: Deep Learning Approach [0.0]
画像中のベンガルグラフの3つの構成要素を分類することが課題となるKaggleコンペティション citek_link に参加する。
我々は,Multi-Layer Perceptron(MLP)やResNet50の現状など,既存のニューラルネットワークモデルの性能について検討する。
そこで我々は,ベンガル語文法分類のための独自の畳み込みニューラルネットワーク(CNN)モデルを提案し,検証根の精度95.32%,母音の精度98.61%,子音の精度98.76%を示した。
論文 参考訳(メタデータ) (2021-11-16T06:14:59Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Sentiment analysis in Bengali via transfer learning using multi-lingual
BERT [0.9883261192383611]
本稿では,ベンガルで手動でタグ付けされた2クラスと3クラスのSAデータセットを提示する。
また、関連する拡張を伴う多言語BERTモデルが、転送学習のアプローチによって訓練可能であることも実証した。
この深層学習モデルは,現在最先端の68%と比較して,2階級の感情分類において71%の精度を達成している。
論文 参考訳(メタデータ) (2020-12-03T10:21:11Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。