論文の概要: Qabas: An Open-Source Arabic Lexicographic Database
- arxiv url: http://arxiv.org/abs/2406.06598v1
- Date: Thu, 6 Jun 2024 09:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 21:14:20.618009
- Title: Qabas: An Open-Source Arabic Lexicographic Database
- Title(参考訳): Qabas: オープンソースのアラビア辞書データベース
- Authors: Mustafa Jarrar, Tymaa Hammouda,
- Abstract要約: 我々は、NLPアプリケーション用に設計されたオープンソースのアラビア辞書であるQabasを紹介する。
カバ・レキシカル・エントリー (Qabas lexical entry) は110レキシコンからのレキシコンをリンクすることで組み立てられる。
カバス・レムマはまた、12の形態学的に注釈付けされたコーパスと結びついている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Qabas, a novel open-source Arabic lexicon designed for NLP applications. The novelty of Qabas lies in its synthesis of 110 lexicons. Specifically, Qabas lexical entries (lemmas) are assembled by linking lemmas from 110 lexicons. Furthermore, Qabas lemmas are also linked to 12 morphologically annotated corpora (about 2M tokens), making it the first Arabic lexicon to be linked to lexicons and corpora. Qabas was developed semi-automatically, utilizing a mapping framework and a web-based tool. Compared with other lexicons, Qabas stands as the most extensive Arabic lexicon, encompassing about 58K lemmas (45K nominal lemmas, 12.5K verbal lemmas, and 473 functional-word lemmas). Qabas is open-source and accessible online at https://sina.birzeit.edu/qabas.
- Abstract(参考訳): 我々は、NLPアプリケーション用に設計されたオープンソースのアラビア辞書であるQabasを紹介する。
カバの新規性は110レキシコンの合成にある。
具体的には、カバの語彙エントリ(レムマ)は110レキシコンからのレムマをリンクすることで組み立てられる。
さらに、Qabas lemmasは12個の形態学的に注釈付きコーパス(約2Mトークン)に関連付けられており、レキシコンやコーパスとリンクした最初のアラビアのレキシコンとなっている。
QabasはマッピングフレームワークとWebベースのツールを使って半自動で開発された。
他のレキシコンと比較すると、カバは最も広いアラビア語のレキシコンであり、約58Kのレキシコン(45Kの名目補題、12.5Kの動詞補題、473の関数語補題)を含んでいる。
Qabasはオープンソースで、https://sina.birzeit.edu/qabas.comで公開されている。
関連論文リスト
- Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Building Efficient and Effective OpenQA Systems for Low-Resource Languages [17.64851283209797]
低コストで効率的な OpenQA システムを低リソース環境向けに開発できることを示す。
主な要素は、機械翻訳されたラベル付きデータセットと関連する非構造化知識ソースを用いた、弱い監視である。
我々は,SQuAD2.0の機械翻訳であるSQuAD-TRを提案する。
論文 参考訳(メタデータ) (2024-01-07T22:11:36Z) - TCE at Qur'an QA 2022: Arabic Language Question Answering Over Holy
Qur'an Using a Post-Processed Ensemble of BERT-based Models [0.0]
アラビア語は神聖なクルアーンの言語であり、世界中の18億人の人々の神聖なテキストである。
本稿では,BERTモデルのアラビア変種に基づくアンサンブル学習モデルを提案する。
本システムでは,公式テストセットでPRR(Partial Reciprocal Rank)スコアが56.6%に達する。
論文 参考訳(メタデータ) (2022-06-03T13:00:48Z) - The Arabic Ontology -- An Arabic Wordnet with Ontologically Clean
Content [0.0]
オントロジーはおよそ1,300の精巧な概念と、部分的に検証された11,000の概念で構成されている。
オントロジーは辞書検索エンジンを通じてアクセス可能で検索可能である。
Ontology は Princeton WordNet や Wikidata などのリソースで完全にマップされている。
論文 参考訳(メタデータ) (2022-05-19T16:27:44Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z) - Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering
Approach for Open-Domain Question Answering [76.99585451345702]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。
我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文 参考訳(メタデータ) (2021-10-14T04:36:29Z) - Neural Coreference Resolution for Arabic [12.986359659930146]
我々は、Lee et alのエンドツーエンドアーキテクチャと、アラビア語版のbertと外部参照検出器を組み合わせた、アラビア語のコア参照解決システムを導入する。
われわれの知る限りでは、これはアラビア語に特化した最初のニューラルコア参照解決システムだ。
OntoNotes 5.0では15.2ポイントのconll F1で、既存の技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2020-10-31T14:34:43Z) - Efficient One-Pass End-to-End Entity Linking for Questions [48.776127715663826]
質問に対する高速なエンドツーエンドエンティティリンクモデルであるELQを提案する。
ビエンコーダを使用して、参照検出とリンクを1つのパスで共同で実行する。
非常に高速な推論時間(1つのCPUで1.57の例/s)で、ELQは下流の質問応答システムに役立つ。
論文 参考訳(メタデータ) (2020-10-06T01:14:10Z) - Quantum Büchi Automata [4.998632546280976]
QBAが認識する$omega$-Languagesのクラスを、ほぼ確実に、厳密で非制限しきい値セマンティクスで紹介する。
QBAによって認識される$omega$-Languageの少なくとも4つの実質的に異なるクラスしか存在しないことが示されている(数えきれないほど無限である)。
従来の$omega$-LanguagesとQBAsの関係は,ポンプ補題を用いて明らかにした。
論文 参考訳(メタデータ) (2018-04-24T12:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。