論文の概要: Nabra: Syrian Arabic Dialects with Morphological Annotations
- arxiv url: http://arxiv.org/abs/2310.17315v1
- Date: Thu, 26 Oct 2023 11:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 20:50:29.363012
- Title: Nabra: Syrian Arabic Dialects with Morphological Annotations
- Title(参考訳): ナブラ語:アラビア語で形態的表記
- Authors: Amal Nayouf and Tymaa Hammouda and Mustafa Jarrar and Fadi Zaraket and
Mohamad-Bassam Kurdy
- Abstract要約: ナブラ語(Nabra)は、シリアのアラビア語方言のコーポラで、形態的アノテーションがある。
シリア原住民のチームは、約6万語を含む6K以上の文を収集した。
ナブラ語は、アレッポ語、ダマスカス語、ディール・エズール語、ハマ語、ホムス語、フラン語、ラタキア語、マルディン語、ラッカ語、スウェーダ語を含むいくつかのシリアの方言をカバーしている。
- 参考スコア(独自算出の注目度): 0.09374652839580183
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents Nabra, a corpora of Syrian Arabic dialects with
morphological annotations. A team of Syrian natives collected more than 6K
sentences containing about 60K words from several sources including social
media posts, scripts of movies and series, lyrics of songs and local proverbs
to build Nabra. Nabra covers several local Syrian dialects including those of
Aleppo, Damascus, Deir-ezzur, Hama, Homs, Huran, Latakia, Mardin, Raqqah, and
Suwayda. A team of nine annotators annotated the 60K tokens with full
morphological annotations across sentence contexts. We trained the annotators
to follow methodological annotation guidelines to ensure unique morpheme
annotations, and normalized the annotations. F1 and kappa agreement scores
ranged between 74% and 98% across features, showing the excellent quality of
Nabra annotations. Our corpora are open-source and publicly available as part
of the Currasat portal https://sina.birzeit.edu/currasat.
- Abstract(参考訳): 本稿では,シリアのアラビア語方言のコーパスであるナブラについて述べる。
シリア原住民のチームは、ソーシャルメディアの投稿、映画やシリーズの脚本、歌詞の歌詞、ナブラを作るための地元の証明など、複数の情報源から約6万語以上の文章を集めた。
ナブラ語はアレッポ語、ダマスカス語、ディール・エズール語、ハマ語、ホムス語、フラン語、ラタキア語、マルディン語、ラッカ語、スウェーダ語を含むいくつかのシリアの方言をカバーしている。
9つのアノテータからなるチームは、文の文脈にまたがる完全な形態的アノテーションで60Kトークンを注釈付けした。
アノテーションを正規化するために、アノテーションのアノテーションガイドラインに従うようにアノテータに訓練しました。
F1とKappaの合意スコアは74%から98%で、Nabraアノテーションの優れた品質を示している。
私たちのコーパスはオープンソースで、Currasatポータル https://sina.birzeit.edu/currasatの一部として公開されています。
関連論文リスト
- ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - Optical Character Recognition and Transcription of Berber Signs from
Images in a Low-Resource Language Amazigh [2.132096006921048]
バーバー語族(英: Berber language)またはアマージー語族(英: Amazigh language family)は、北アフリカ原住民の言語である。
独自のアルファベットはティフィナグ(Tifinagh)と呼ばれ、モロッコ、アルジェリアなどのベルベルのコミュニティで使用されている。
Afroasiatic Language Berberは1400万人が話しているが、教育、研究、Webアプリケーションなどには十分な表現がない。
論文 参考訳(メタデータ) (2023-03-21T21:38:44Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Lisan: Yemenu, Irqi, Libyan, and Sudanese Arabic Dialect Copora with
Morphological Annotations [0.0]
この記事では、形態学的に注釈付けされたイエメン、スーダン、イラク、リビアのアラビア語のLisan corporaについて述べる。
いくつかのソーシャルメディアプラットフォームからコーパスの内容を収集した。
注釈者は4つのコーパスの全ての単語を接頭辞、茎、接尾辞に分類し、それぞれに音声の一部、レムマ、グロスなどの異なる形態的特徴をラベル付けした。
論文 参考訳(メタデータ) (2022-12-13T10:37:10Z) - Maknuune: A Large Open Palestinian Arabic Lexicon [8.230763074145706]
マクヌーンは17Kのレムマから36K以上のエントリを持ち、3.7Kのルートを持っている。
マクヌーン(Maknuune)は、パレスチナのアラビア語方言である。
論文 参考訳(メタデータ) (2022-10-24T07:19:03Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Offensive Language Detection in Under-resourced Algerian Dialectal
Arabic Language [0.0]
我々は、未資源の言語の1つであるアルジェリア方言のアラビア語に焦点を当てている。
同じ言語での作業が不足しているため、我々は8.7k以上のテキストを通常の、虐待的、攻撃的に手動で注釈付けした新しいコーパスを構築した。
論文 参考訳(メタデータ) (2022-03-18T15:42:21Z) - New Arabic Medical Dataset for Diseases Classification [55.41644538483948]
いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
論文 参考訳(メタデータ) (2021-06-29T10:42:53Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。