論文の概要: Maknuune: A Large Open Palestinian Arabic Lexicon
- arxiv url: http://arxiv.org/abs/2210.12985v1
- Date: Mon, 24 Oct 2022 07:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:43:47.900258
- Title: Maknuune: A Large Open Palestinian Arabic Lexicon
- Title(参考訳): Maknuune: 大規模なパレスチナのアラビア・レキシコン
- Authors: Shahd Dibas, Christian Khairallah, Nizar Habash, Omar Fayez Sadi,
Tariq Sairafy, Karmel Sarabta and Abrar Ardah
- Abstract要約: マクヌーンは17Kのレムマから36K以上のエントリを持ち、3.7Kのルートを持っている。
マクヌーン(Maknuune)は、パレスチナのアラビア語方言である。
- 参考スコア(独自算出の注目度): 8.230763074145706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Maknuune, a large open lexicon for the Palestinian Arabic dialect.
Maknuune has over 36K entries from 17K lemmas, and 3.7K roots. All entries
include diacritized Arabic orthography, phonological transcription and English
glosses. Some entries are enriched with additional information such as broken
plurals and templatic feminine forms, associated phrases and collocations,
Standard Arabic glosses, and examples or notes on grammar, usage, or location
of collected entry.
- Abstract(参考訳): 我々は、パレスチナのアラビア方言のための大きなオープンレキシコンであるMaknuuneを提示する。
マクヌーンは17Kのレムマから36K以上のエントリを持ち、3.7Kのルートを持っている。
すべての項目には、アラビア語正書法、音韻的転写、英語の用語集が含まれる。
いくつかのエントリには、壊れた複数語やテンポラティックな女性形、関連するフレーズやコロケーション、標準アラビア語のグロス、文法、使用法、収集されたエントリの位置に関する例やメモなどの追加情報が含まれている。
関連論文リスト
- Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。
我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。
方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-07-03T11:30:03Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Nabra: Syrian Arabic Dialects with Morphological Annotations [0.09374652839580183]
ナブラ語(Nabra)は、シリアのアラビア語方言のコーポラで、形態的アノテーションがある。
シリア原住民のチームは、約6万語を含む6K以上の文を収集した。
ナブラ語は、アレッポ語、ダマスカス語、ディール・エズール語、ハマ語、ホムス語、フラン語、ラタキア語、マルディン語、ラッカ語、スウェーダ語を含むいくつかのシリアの方言をカバーしている。
論文 参考訳(メタデータ) (2023-10-26T11:23:05Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Lisan: Yemenu, Irqi, Libyan, and Sudanese Arabic Dialect Copora with
Morphological Annotations [0.0]
この記事では、形態学的に注釈付けされたイエメン、スーダン、イラク、リビアのアラビア語のLisan corporaについて述べる。
いくつかのソーシャルメディアプラットフォームからコーパスの内容を収集した。
注釈者は4つのコーパスの全ての単語を接頭辞、茎、接尾辞に分類し、それぞれに音声の一部、レムマ、グロスなどの異なる形態的特徴をラベル付けした。
論文 参考訳(メタデータ) (2022-12-13T10:37:10Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - MANorm: A Normalization Dictionary for Moroccan Arabic Dialect Written
in Latin Script [0.05833117322405446]
我々は、YouTubeコメントのコーパスで生成された単語埋め込みモデルの強力さを利用する。
我々は、マノルムと呼ぶ正規化辞書を構築した。
論文 参考訳(メタデータ) (2022-06-18T10:17:46Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - New Arabic Medical Dataset for Diseases Classification [55.41644538483948]
いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
論文 参考訳(メタデータ) (2021-06-29T10:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。