論文の概要: MultiAzterTest: a Multilingual Analyzer on Multiple Levels of Language
for Readability Assessment
- arxiv url: http://arxiv.org/abs/2109.04870v1
- Date: Fri, 10 Sep 2021 13:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:45:07.787677
- Title: MultiAzterTest: a Multilingual Analyzer on Multiple Levels of Language
for Readability Assessment
- Title(参考訳): MultiAzterTest: 可読性評価のための多言語言語レベルの多言語アナライザ
- Authors: Kepa Bengoetxea and Itziar Gonzalez-Dios
- Abstract要約: MultiAzterTestは、125以上の凝集度、言語、可読性のテキストを分析する、オープンソースのNLPツールである。
MultiAzterTestは、言語横断的な機能を使用して、より複雑なものと単純なものとの競争結果も得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Readability assessment is the task of determining how difficult or easy a
text is or which level/grade it has. Traditionally, language dependent
readability formula have been used, but these formulae take few text
characteristics into account. However, Natural Language Processing (NLP) tools
that assess the complexity of texts are able to measure more different features
and can be adapted to different languages. In this paper, we present the
MultiAzterTest tool: (i) an open source NLP tool which analyzes texts on over
125 measures of cohesion,language, and readability for English, Spanish and
Basque, but whose architecture is designed to easily adapt other languages;
(ii) readability assessment classifiers that improve the performance of
Coh-Metrix in English, Coh-Metrix-Esp in Spanish and ErreXail in Basque; iii) a
web tool. MultiAzterTest obtains 90.09 % in accuracy when classifying into
three reading levels (elementary, intermediate, and advanced) in English and
95.50 % in Basque and 90 % in Spanish when classifying into two reading levels
(simple and complex) using a SMO classifier. Using cross-lingual features,
MultiAzterTest also obtains competitive results above all in a complex vs
simple distinction.
- Abstract(参考訳): 可読性評価(Readability Assessment)とは、テキストの難易度や難易度を決定するタスクである。
伝統的に言語依存の可読性公式が用いられてきたが、これらの公式はテキストの特徴を考慮に入れていない。
しかし、テキストの複雑さを評価する自然言語処理(NLP)ツールは、より異なる特徴を測定することができ、異なる言語に適応することができる。
本稿では,MultiAzterTestツールについて述べる。
i) 英語,スペイン語及びバスク語に対する125以上の凝集度,言語及び可読性に関するテキストを分析するオープンソースのNLPツールであって,そのアーキテクチャは,他言語を容易に適応するように設計されている。
(二 英語のCoh-Metrix、スペイン語のCoh-Metrix-Esp、バスク語ErreXailの性能を向上させる可読性評価分類器
iii) web ツール。
multiaztertestは、英語で3つの読みレベル(要素、中間、上級)、バスク語で95.50%、スペイン語で90%に分類すると、smo分類器を用いて2つの読みレベル(単純かつ複雑)に分類される。
MultiAzterTestは、言語横断機能を使用して、より複雑なものと単純なものとの競争結果も得る。
関連論文リスト
- Strategies for Arabic Readability Modeling [9.976720880041688]
自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。
本稿では,アラビア可読性評価に関する実験結果について,多種多様なアプローチを用いて述べる。
論文 参考訳(メタデータ) (2024-07-03T11:54:11Z) - Classification of Human- and AI-Generated Texts for English, French,
German, and Spanish [0.138120109831448]
我々は、英語、フランス語、ドイツ語、スペイン語の人文およびAI生成テキストを分類する機能を分析する。
AI生成テキストの検出には,提案するすべての機能の組み合わせが最適である。
AIで表現されたテキストを検出するために、全ての特徴を持つシステムは、多くの場合、他の特徴を持つシステムよりも優れています。
論文 参考訳(メタデータ) (2023-12-08T07:42:06Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Around the world in 60 words: A generative vocabulary test for online
research [12.91296932597502]
ウィキペディアのテキストを用いて語彙テストを生成する自動パイプラインを提案する。
我々のパイプラインは希少な名詞をサンプリングし、同じ低レベル統計を持つ擬似単語を生成する。
私たちのテストは8つの言語で利用可能で、簡単に他の言語に拡張できます。
論文 参考訳(メタデータ) (2023-02-03T09:27:12Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - Advancing Multilingual Pre-training: TRIP Triangular Document-level
Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。
TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文 参考訳(メタデータ) (2022-12-15T12:14:25Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - Feature Selection on Noisy Twitter Short Text Messages for Language
Identification [0.0]
アルゴリズムの効果を分析するために,様々な学習アルゴリズムに異なる特徴選択アルゴリズムを適用した。
この手法は、Twitterから抽出された6903ツイートの新しいデータセットを用いた単語レベルの言語識別に焦点を当てている。
論文 参考訳(メタデータ) (2020-07-11T09:22:01Z) - Text Complexity Classification Based on Linguistic Information:
Application to Intelligent Tutoring of ESL [0.0]
本研究の目的は、英語を第二言語(ESL)学習者として教える文脈の中で、テキストの複雑さを識別できる分類器を構築することである。
ESLの専門家によって既に3つの難易度に分類されていた6171テキストのコーパスを用いて、5つの機械学習アルゴリズムを用いて異なる実験を行った。
その結果, 言語学的特徴は, 総合的な分類性能に優れていた。
論文 参考訳(メタデータ) (2020-01-07T02:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。