論文の概要: Automatic Error Type Annotation for Arabic
- arxiv url: http://arxiv.org/abs/2109.08068v1
- Date: Thu, 16 Sep 2021 15:50:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 16:23:01.847973
- Title: Automatic Error Type Annotation for Arabic
- Title(参考訳): アラビア語の自動誤り型アノテーション
- Authors: Riadh Belkebir and Nizar Habash
- Abstract要約: 現代標準アラビア語のための自動エラー型アノテーションシステムであるARETAを提案する。
我々は誤り分類をアラビア学習者コーパス(ALC)のError Tagsetにいくつかの修正を加えている。
ARETAは、ALCのマニュアルアノテートされたブラインドテスト部分において85.8%(マイクロ平均F1スコア)のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 20.51341894424478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ARETA, an automatic error type annotation system for Modern
Standard Arabic. We design ARETA to address Arabic's morphological richness and
orthographic ambiguity. We base our error taxonomy on the Arabic Learner Corpus
(ALC) Error Tagset with some modifications. ARETA achieves a performance of
85.8% (micro average F1 score) on a manually annotated blind test portion of
ALC. We also demonstrate ARETA's usability by applying it to a number of
submissions from the QALB 2014 shared task for Arabic grammatical error
correction. The resulting analyses give helpful insights on the strengths and
weaknesses of different submissions, which is more useful than the opaque M2
scoring metrics used in the shared task. ARETA employs a large Arabic
morphological analyzer, but is completely unsupervised otherwise. We make ARETA
publicly available.
- Abstract(参考訳): 現代標準アラビア語のための自動エラー型アノテーションシステムであるARETAを提案する。
我々はアラビア語の形態的豊かさと正書法的曖昧さに対処するためにARETAを設計する。
我々は誤り分類をアラビア学習者コーパス(ALC)のError Tagsetにいくつかの修正を加えた。
ARETAは、ALCのマニュアルアノテートされたブラインドテスト部分において85.8%(マイクロ平均F1スコア)のパフォーマンスを達成する。
また, アラビア語の文法的誤り訂正のためのQALB 2014共有タスクから, 多数の提案にARETAを応用し, ユーザビリティを実証した。
その結果得られた分析は、異なる投稿の長所と短所についての有益な洞察を与え、共有タスクで使用される不透明なm2スコア指標よりも有用である。
ARETAは大きなアラビア形態分析器を使用しているが、完全に監督されていない。
ARETAを公開しています。
関連論文リスト
- Tibyan Corpus: Balanced and Comprehensive Error Coverage Corpus Using ChatGPT for Arabic Grammatical Error Correction [0.32885740436059047]
本研究の目的は,ChatGPTを用いた文法的誤り訂正のためのアラビア語コーパス"Tibyan"を開発することである。
ChatGPTは、アラビア語の本から抽出された誤りのない文と一致した文法的な誤りを含む一対のアラビア語の文に基づいてデータ拡張ツールとして使用される。
私たちのコーパスには、正書法、構文、意味論、句読法、形態学、分割という7つのタイプを含む49のエラーが含まれていました。
論文 参考訳(メタデータ) (2024-11-07T10:17:40Z) - Strategies for Arabic Readability Modeling [9.976720880041688]
自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。
本稿では,アラビア可読性評価に関する実験結果について,多種多様なアプローチを用いて述べる。
論文 参考訳(メタデータ) (2024-07-03T11:54:11Z) - Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - ArabianGPT: Native Arabic GPT-based Large Language Model [2.8623940003518156]
本稿ではアラビアンLLMスイート内の一連のトランスフォーマーモデルであるアラビアンGPTを提案する。
これらのモデルに不可欠なアラナイザー・トークンーザはアラビア文字のユニークな形態的側面に対処する。
感情分析では、微調整されたアラビアのGPT-0.1Bモデルは95%の顕著な精度を達成し、ベースモデルの56%から大幅に増加した。
論文 参考訳(メタデータ) (2024-02-23T13:32:47Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Offensive Language Detection in Under-resourced Algerian Dialectal
Arabic Language [0.0]
我々は、未資源の言語の1つであるアルジェリア方言のアラビア語に焦点を当てている。
同じ言語での作業が不足しているため、我々は8.7k以上のテキストを通常の、虐待的、攻撃的に手動で注釈付けした新しいコーパスを構築した。
論文 参考訳(メタデータ) (2022-03-18T15:42:21Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。