論文の概要: Automatic Difficulty Classification of Arabic Sentences
- arxiv url: http://arxiv.org/abs/2103.04386v1
- Date: Sun, 7 Mar 2021 16:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:45:01.113743
- Title: Automatic Difficulty Classification of Arabic Sentences
- Title(参考訳): アラビア語文の自動難易度分類
- Authors: Nouran Khallaf, Serge Sharoff
- Abstract要約: 3方向cefr分類の精度はアラビア語-bert分類では0.80, xlm-r分類では0.75, 回帰では0.71スピアマン相関である。
我々は,異なる種類の文埋め込み(fastText, mBERT, XLM-R, Arabic-BERT)とPOSタグ, 依存性木, 可読性スコア, 言語学習者の頻度リストなど,従来の言語機能との比較を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a Modern Standard Arabic (MSA) Sentence difficulty
classifier, which predicts the difficulty of sentences for language learners
using either the CEFR proficiency levels or the binary classification as simple
or complex. We compare the use of sentence embeddings of different kinds
(fastText, mBERT , XLM-R and Arabic-BERT), as well as traditional language
features such as POS tags, dependency trees, readability scores and frequency
lists for language learners. Our best results have been achieved using
fined-tuned Arabic-BERT. The accuracy of our 3-way CEFR classification is F-1
of 0.80 and 0.75 for Arabic-Bert and XLM-R classification respectively and 0.71
Spearman correlation for regression. Our binary difficulty classifier reaches
F-1 0.94 and F-1 0.98 for sentence-pair semantic similarity classifier.
- Abstract(参考訳): 本論文では,CEFRの習熟度レベルと2進分分類を単純あるいは複雑として用いた言語学習者の文の難易度を予測する,現代標準アラビア語(MSA)文難易度分類器を提案する。
異なる種類の文埋め込み(fastText, mBERT, XLM-R, Arabic-BERT)とPOSタグ, 依存性木, 可読性スコア, 言語学習者の頻度リストなど, 従来の言語機能との比較を行った。
きめ細やかなアラビア-BERTで最高の結果が得られました。
3方向cefr分類の精度はアラビア語-bert分類では0.80, xlm-r分類では0.75, 回帰では0.71スピアマン相関である。
我々の二項難易度分類器は文対意味類似度分類器の F-1 0.94 と F-1 0.98 に達する。
関連論文リスト
- Ta'keed: The First Generative Fact-Checking System for Arabic Claims [0.0]
本稿では,アラビア語の自動ファクトチェックシステムであるTa'keedを紹介する。
タケドは、特にアラビア語で、主張の信頼性に関する説明を生成する。
このシステムは、分類タスクで有望なF1スコア0.72を達成した。
論文 参考訳(メタデータ) (2024-01-25T10:43:00Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。
本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文 参考訳(メタデータ) (2022-11-13T23:59:11Z) - Multilevel sentiment analysis in arabic [1.4467794332678539]
正および負の両方のテストクラスにおいて、項レベルSAで達成される平均Fスコアは0.92である。
文書レベルSAでは、正のテストクラスの平均Fスコアは0.94、負クラスは0.93である。
論文 参考訳(メタデータ) (2022-05-24T19:16:06Z) - Towards Arabic Sentence Simplification via Classification and Generative
Approaches [0.0]
本稿では,現代標準アラビア語(MSA)文レベルの簡略化システムの構築を試みる。
文の簡易化には, (i) アラビア語-BERT, 事前学習した文脈モデル, 高速テキスト単語埋め込みのモデル, (ii) 多言語テキスト・テキスト・トランスフォーマーmT5を適用したSeq2Seq手法の2つの手法を用いた。
論文 参考訳(メタデータ) (2022-04-20T08:17:33Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Language Identification with a Reciprocal Rank Classifier [1.4467794332678539]
ドメインの変更やトレーニングデータの欠如に頑健な軽量で効果的な言語識別子を提案する。
2つの22言語データセットでこれをテストし、ウィキペディアのトレーニングセットからTwitterのテストセットへのゼロエフォートドメイン適応を実証する。
論文 参考訳(メタデータ) (2021-09-20T22:10:07Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - Text Complexity Classification Based on Linguistic Information:
Application to Intelligent Tutoring of ESL [0.0]
本研究の目的は、英語を第二言語(ESL)学習者として教える文脈の中で、テキストの複雑さを識別できる分類器を構築することである。
ESLの専門家によって既に3つの難易度に分類されていた6171テキストのコーパスを用いて、5つの機械学習アルゴリズムを用いて異なる実験を行った。
その結果, 言語学的特徴は, 総合的な分類性能に優れていた。
論文 参考訳(メタデータ) (2020-01-07T02:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。