論文の概要: The SAMER Arabic Text Simplification Corpus
- arxiv url: http://arxiv.org/abs/2404.18615v1
- Date: Mon, 29 Apr 2024 11:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 13:57:37.651159
- Title: The SAMER Arabic Text Simplification Corpus
- Title(参考訳): THER Arabic Text Simplification Corpus
- Authors: Bashar Alhafni, Reem Hazim, Juan Piñeros Liberato, Muhamed Al Khalil, Nizar Habash,
- Abstract要約: MadeR Corpusは、学校の学習者を対象にしたテキスト単純化のための、手動で注釈付けされたアラビアのパラレルコーパスである。
私たちのコーパスは1865年から1955年の間に出版された15のアラビア小説から選ばれた159Kワードのテキストで構成されています。
コーパスには、文書レベルと単語レベルの両方での可読性レベルのアノテーションと、2つの異なる可読性レベルの学習者を対象にしたテキスト毎の2つの簡易並列バージョンが含まれています。
- 参考スコア(独自算出の注目度): 9.369209124775043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the SAMER Corpus, the first manually annotated Arabic parallel corpus for text simplification targeting school-aged learners. Our corpus comprises texts of 159K words selected from 15 publicly available Arabic fiction novels most of which were published between 1865 and 1955. Our corpus includes readability level annotations at both the document and word levels, as well as two simplified parallel versions for each text targeting learners at two different readability levels. We describe the corpus selection process, and outline the guidelines we followed to create the annotations and ensure their quality. Our corpus is publicly available to support and encourage research on Arabic text simplification, Arabic automatic readability assessment, and the development of Arabic pedagogical language technologies.
- Abstract(参考訳): 我々は,小学校の学習者を対象としたテキストの簡略化を目的とした,最初の手書きのアラビアパラレルコーパスであるHataR Corpusを提示する。
私たちのコーパスは1865年から1955年にかけて出版された15のアラビア小説から選ばれた159K語のテキストで構成されています。
コーパスには、文書レベルと単語レベルの両方での可読性レベルのアノテーションと、2つの異なる可読性レベルの学習者を対象にしたテキスト毎の2つの簡易並列バージョンが含まれています。
コーパスの選択プロセスについて説明し、その後フォローしたガイドラインを概説し、アノテーションを作成し、それらの品質を保証する。
我々のコーパスは、アラビア語テキストの簡易化、アラビア語の自動可読性評価、およびアラビア語教育言語技術の発展を支援するために公開されています。
関連論文リスト
- Strategies for Arabic Readability Modeling [9.976720880041688]
自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。
本稿では,アラビア可読性評価に関する実験結果について,多種多様なアプローチを用いて述べる。
論文 参考訳(メタデータ) (2024-07-03T11:54:11Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - ZAEBUC-Spoken: A Multilingual Multidialectal Arabic-English Speech Corpus [8.96693684560691]
ZAEBUC-Spokenは多言語多言語対応アラビア語-英語音声コーパスである。
コーパスは自動音声認識(ASR)のための課題セットを提供する
我々は、既存の転写ガイドラインからインスピレーションを得て、会話音声、コードスイッチング、両方の言語の正書法といった問題を扱う一連のガイドラインを提示する。
論文 参考訳(メタデータ) (2024-03-27T01:19:23Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - TArC: Tunisian Arabish Corpus First complete release [0.0]
我々は、アラビジでエンコードされたチュニジアのアラビア語に関するプロジェクトの最終結果を示す。
このプロジェクトは2つの統合された独立したリソースの創出につながった。
論文 参考訳(メタデータ) (2022-07-11T11:46:59Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - Automatic Arabic Dialect Identification Systems for Written Texts: A
Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。
本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。
本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文 参考訳(メタデータ) (2020-09-26T15:33:16Z) - TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish
Corpus [3.8580784887142774]
本稿では,第1次チュニジア・アラブ人コーパス(TArC)の構成過程について述べる。
アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字とアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。
論文 参考訳(メタデータ) (2020-03-20T22:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。