論文の概要: A Benchmark Arabic Dataset for Commonsense Explanation
- arxiv url: http://arxiv.org/abs/2012.10251v1
- Date: Fri, 18 Dec 2020 14:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 23:26:22.306316
- Title: A Benchmark Arabic Dataset for Commonsense Explanation
- Title(参考訳): Commonsense説明のためのベンチマークアラビアデータセット
- Authors: Saja AL-Tawalbeh, Mohammad AL-Smadi
- Abstract要約: 本稿では,コモンセンス説明のためのベンチマークアラビアデータセットを提案する。
データセットはアラビア語の文で構成されており、その文がなぜ間違っているのかを説明する3つの選択肢があります。
- 参考スコア(独自算出の注目度): 0.6091702876917281
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Language comprehension and commonsense knowledge validation by machines are
challenging tasks that are still under researched and evaluated for Arabic
text. In this paper, we present a benchmark Arabic dataset for commonsense
explanation. The dataset consists of Arabic sentences that does not make sense
along with three choices to select among them the one that explains why the
sentence is false. Furthermore, this paper presents baseline results to assist
and encourage the future evaluation of research in this field. The dataset is
distributed under the Creative Commons CC-BY-SA 4.0 license and can be found on
GitHub
- Abstract(参考訳): 機械による言語理解と常識知識の検証は、まだアラビア語のテキストで研究され評価されている課題である。
本稿では,コモンセンス説明のためのベンチマークアラビアデータセットを提案する。
データセットは、アラビア語の文が意味をなさないことと、その文がなぜ偽であるのかを説明する3つの選択から成り立っている。
さらに,本研究の今後の評価を補助し,促進するための基礎的結果について述べる。
データセットはCreative Commons CC-BY-SA 4.0ライセンスで配布されており、GitHubで公開されている。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。
また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文 参考訳(メタデータ) (2024-03-26T16:37:54Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AraSpider: Democratizing Arabic-to-SQL [1.082634245716027]
本研究では、アラビア語コミュニティにおける自然言語処理(Spider)の改善を目的とした、最初のアラビア語版のSpiderデータセットであるAraNLPについて述べる。
論文 参考訳(メタデータ) (2024-02-12T07:11:13Z) - ARCOQ: Arabic Closest Opposite Questions Dataset [0.0]
本稿ではアラビア語における最も近い反対の質問に対するデータセットを提案する。
この構造は、英語に対する最も近い反対の質問データセットである研究記録試験(GRE)に類似している。
本論文は、導入したデータセットに異なるアラビア語単語を埋め込んだモデルの性能のベンチマークを提供する。
論文 参考訳(メタデータ) (2023-10-22T18:41:26Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - New Arabic Medical Dataset for Diseases Classification [55.41644538483948]
いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
論文 参考訳(メタデータ) (2021-06-29T10:42:53Z) - Is this sentence valid? An Arabic Dataset for Commonsense Validation [0.456877715768796]
このデータセットは、アラビア語のコモンセンス検証の分野における最初のものと考えられている。
データセットはCreative Commons BY-SA 4.0ライセンスで配布されており、GitHubで公開されている。
論文 参考訳(メタデータ) (2020-08-25T08:15:55Z) - AraDIC: Arabic Document Classification using Image-Based Character
Embeddings and Class-Balanced Loss [7.734726150561088]
本稿では,アラビア文書イメージベース分類器 (AraDIC) を新たに提案する。
AraDICは画像ベースの文字エンコーダと分類器から構成される。長期データ分散問題に対処するために、クラスバランス損失を用いてエンドツーエンドで訓練される。
我々の知る限りでは、アラビア文字分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークである。
論文 参考訳(メタデータ) (2020-06-20T14:25:06Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。