論文の概要: Is this sentence valid? An Arabic Dataset for Commonsense Validation
- arxiv url: http://arxiv.org/abs/2008.10873v1
- Date: Tue, 25 Aug 2020 08:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 04:19:38.242749
- Title: Is this sentence valid? An Arabic Dataset for Commonsense Validation
- Title(参考訳): この文は有効ですか。
Commonsense Validationのためのアラビアデータセット
- Authors: Saja Tawalbeh and Mohammad AL-Smadi
- Abstract要約: このデータセットは、アラビア語のコモンセンス検証の分野における最初のものと考えられている。
データセットはCreative Commons BY-SA 4.0ライセンスで配布されており、GitHubで公開されている。
- 参考スコア(独自算出の注目度): 0.456877715768796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The commonsense understanding and validation remains a challenging task in
the field of natural language understanding. Therefore, several research papers
have been published that studied the capability of proposed systems to evaluate
the models ability to validate commonsense in text. In this paper, we present a
benchmark Arabic dataset for commonsense understanding and validation as well
as a baseline research and models trained using the same dataset. To the best
of our knowledge, this dataset is considered as the first in the field of
Arabic text commonsense validation. The dataset is distributed under the
Creative Commons BY-SA 4.0 license and can be found on GitHub.
- Abstract(参考訳): 常識的理解と検証は、自然言語理解の分野で難しい課題である。
それゆえ,テキストの共通性を検証するモデルを評価するための提案システムの能力について検討した研究論文がいくつか発表されている。
本稿では,共通理解と検証のためのベンチマークアラビアデータセットと,同じデータセットを用いて訓練されたベースライン研究とモデルを提案する。
我々の知る限りでは、このデータセットはアラビア語テキストコモンセンス検証の分野における最初のものと考えられている。
データセットはCreative Commons BY-SA 4.0ライセンスで配布されており、GitHubで公開されている。
関連論文リスト
- Improving Natural Language Inference in Arabic using Transformer Models
and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。
この制限を克服するため、公開リソースから専用のデータセットを作成します。
言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:40:11Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking [55.75590135151682]
CHEFは、10万件の現実世界のクレームに関する最初のChenese EvidenceベースのFact-checkingデータセットである。
このデータセットは、政治から公衆衛生まで、複数のドメインをカバーし、インターネットから取得した注釈付きの証拠を提供する。
論文 参考訳(メタデータ) (2022-06-06T09:11:03Z) - ArabGlossBERT: Fine-Tuning BERT on Context-Gloss Pairs for WSD [0.0]
本稿では,アラビア語単語センス曖昧化(WSD)のためのBERTモデルについて述べる。
ラベル付きアラビア・コンテクスト・グロス・ペアのデータセットを構築した。
各ペアはTrueまたはFalseとラベル付けされ、各コンテキストのターゲット語が識別され、注釈が付けられた。
論文 参考訳(メタデータ) (2022-05-19T16:47:18Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Claim Matching Beyond English to Scale Global Fact-Checking [5.836354423653351]
我々は、ファクトチェックされたクレームに加えて、WhatsAppのチップラインと公開グループメッセージの新しいデータセットを構築します。
我々のデータセットには、高リソース(英語、ヒンディー語)と低リソース(ベンガル語、マラヤラム語、タミル語)のコンテンツが含まれています。
我々は、低リソース言語と高リソース言語の埋め込み品質の不均衡に対応するため、知識蒸留と高品質な「教師」モデルを用いて、独自の埋め込みモデルを訓練する。
論文 参考訳(メタデータ) (2021-06-01T23:28:05Z) - A Benchmark Arabic Dataset for Commonsense Explanation [0.6091702876917281]
本稿では,コモンセンス説明のためのベンチマークアラビアデータセットを提案する。
データセットはアラビア語の文で構成されており、その文がなぜ間違っているのかを説明する3つの選択肢があります。
論文 参考訳(メタデータ) (2020-12-18T14:07:10Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。