論文の概要: The SAMER Arabic Text Simplification Corpus
- arxiv url: http://arxiv.org/abs/2404.18615v1
- Date: Mon, 29 Apr 2024 11:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 13:57:37.651159
- Title: The SAMER Arabic Text Simplification Corpus
- Title(参考訳): THER Arabic Text Simplification Corpus
- Authors: Bashar Alhafni, Reem Hazim, Juan Piñeros Liberato, Muhamed Al Khalil, Nizar Habash,
- Abstract要約: MadeR Corpusは、学校の学習者を対象にしたテキスト単純化のための、手動で注釈付けされたアラビアのパラレルコーパスである。
私たちのコーパスは1865年から1955年の間に出版された15のアラビア小説から選ばれた159Kワードのテキストで構成されています。
コーパスには、文書レベルと単語レベルの両方での可読性レベルのアノテーションと、2つの異なる可読性レベルの学習者を対象にしたテキスト毎の2つの簡易並列バージョンが含まれています。
- 参考スコア(独自算出の注目度): 9.369209124775043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the SAMER Corpus, the first manually annotated Arabic parallel corpus for text simplification targeting school-aged learners. Our corpus comprises texts of 159K words selected from 15 publicly available Arabic fiction novels most of which were published between 1865 and 1955. Our corpus includes readability level annotations at both the document and word levels, as well as two simplified parallel versions for each text targeting learners at two different readability levels. We describe the corpus selection process, and outline the guidelines we followed to create the annotations and ensure their quality. Our corpus is publicly available to support and encourage research on Arabic text simplification, Arabic automatic readability assessment, and the development of Arabic pedagogical language technologies.
- Abstract(参考訳): 我々は,小学校の学習者を対象としたテキストの簡略化を目的とした,最初の手書きのアラビアパラレルコーパスであるHataR Corpusを提示する。
私たちのコーパスは1865年から1955年にかけて出版された15のアラビア小説から選ばれた159K語のテキストで構成されています。
コーパスには、文書レベルと単語レベルの両方での可読性レベルのアノテーションと、2つの異なる可読性レベルの学習者を対象にしたテキスト毎の2つの簡易並列バージョンが含まれています。
コーパスの選択プロセスについて説明し、その後フォローしたガイドラインを概説し、アノテーションを作成し、それらの品質を保証する。
我々のコーパスは、アラビア語テキストの簡易化、アラビア語の自動可読性評価、およびアラビア語教育言語技術の発展を支援するために公開されています。
関連論文リスト
- A Large and Balanced Corpus for Fine-grained Arabic Readability Assessment [10.853984915007961]
本稿では,バランスドアラビア可読性評価コーパスBARECを紹介する。
BARECは、100万語を超える68,182の文で構成され、19の可読性レベルをカバーするために慎重にキュレートされている。
コーパスは、アノテーターの大規模なチームによって手動で注釈付けされた。
論文 参考訳(メタデータ) (2025-02-19T08:16:11Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Guidelines for Fine-grained Sentence-level Arabic Readability Annotation [9.261022921574318]
Balanced Arabic Readability Evaluation Corpus (BAREC) プロジェクトは、さまざまな可読性レベルに対応する包括的なアラビア語リソースの必要性に対処するために設計されている。
Taha/Arabi21の可読性参照にインスパイアされたBARECは、19の異なるレベルにわたる文レベルのアラビア文字の可読性を評価するための標準化された参照を提供することを目指している。
本稿は,10,631文・フレーズ(113,651語)の分析を通じて,本ガイドラインに焦点をあてたものである。
論文 参考訳(メタデータ) (2024-10-11T09:59:46Z) - Strategies for Arabic Readability Modeling [9.976720880041688]
自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。
本稿では,アラビア可読性評価に関する実験結果について,多種多様なアプローチを用いて述べる。
論文 参考訳(メタデータ) (2024-07-03T11:54:11Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - ZAEBUC-Spoken: A Multilingual Multidialectal Arabic-English Speech Corpus [8.96693684560691]
ZAEBUC-Spokenは多言語多言語対応アラビア語-英語音声コーパスである。
コーパスは自動音声認識(ASR)のための課題セットを提供する
我々は、既存の転写ガイドラインからインスピレーションを得て、会話音声、コードスイッチング、両方の言語の正書法といった問題を扱う一連のガイドラインを提示する。
論文 参考訳(メタデータ) (2024-03-27T01:19:23Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - Automatic Arabic Dialect Identification Systems for Written Texts: A
Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。
本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。
本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文 参考訳(メタデータ) (2020-09-26T15:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。