論文の概要: ASAD: A Twitter-based Benchmark Arabic Sentiment Analysis Dataset
- arxiv url: http://arxiv.org/abs/2011.00578v3
- Date: Wed, 10 Mar 2021 03:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 22:53:28.745430
- Title: ASAD: A Twitter-based Benchmark Arabic Sentiment Analysis Dataset
- Title(参考訳): ASAD: Twitterベースのベンチマークアラビア感性分析データセット
- Authors: Basma Alharbi, Hind Alamro, Manal Alshehri, Zuhair Khayyat, Manal
Kalkatawi, Inji Ibrahim Jaber, Xiangliang Zhang
- Abstract要約: 本稿では,アラビア感性分析(ASAD)のための新しいTwitterベースのベンチマークデータセットについて詳述する。
KAUSTが主催するコンペティション3では、それぞれ1位と2位と3位に10000 USD、5000 USD、2000 USDが贈られる。
- 参考スコア(独自算出の注目度): 15.496483260323652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides a detailed description of a new Twitter-based benchmark
dataset for Arabic Sentiment Analysis (ASAD), which is launched in a
competition3, sponsored by KAUST for awarding 10000 USD, 5000 USD and 2000 USD
to the first, second and third place winners, respectively. Compared to other
publicly released Arabic datasets, ASAD is a large, high-quality annotated
dataset(including 95K tweets), with three-class sentiment labels (positive,
negative and neutral). We presents the details of the data collection process
and annotation process. In addition, we implement several baseline models for
the competition task and report the results as a reference for the participants
to the competition.
- Abstract(参考訳): 本稿では,1位と2位と3位にそれぞれ10000 USD,5000 USD,2000 USDを授与したKAUST主催のコンペティション3でローンチした,アラビア感覚分析(ASAD)のためのTwitterベースの新しいベンチマークデータセットの詳細を説明する。
他のアラビア語データセットと比較すると、asadは大規模な高品質な注釈付きデータセット(95万ツイートを含む)で、3種類の感情ラベル(ポジティブ、ネガティブ、ニュートラル)がある。
本稿では,データ収集プロセスとアノテーションプロセスの詳細について述べる。
さらに,コンペティションタスクのベースラインモデルをいくつか実装し,参加者のコンペティションへの参照として結果を報告する。
関連論文リスト
- Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters in Hadith Domain [5.916745177895035]
本稿では,アラビア語のセグメンテーションツールを解析するための標準データセットについて述べる。
データセットを推定するために、Farasa、Camel、ALPなどさまざまな手法を適用し、アノテーションの品質を報告し、ベンチマーク仕様も分析した。
論文 参考訳(メタデータ) (2023-06-22T16:50:40Z) - ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich
Document Images [198.35937007558078]
大会は2022年12月30日に開かれ、2023年3月24日に閉幕した。
トラック1には35人の参加者と91人の有効な応募があり、トラック2には15人の参加者と26人の応募がある。
提案手法の性能によると, 複雑なシナリオやゼロショットシナリオにおいて, 期待される情報抽出性能にはまだ大きなギャップがあると考えられる。
論文 参考訳(メタデータ) (2023-06-05T22:20:52Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Context-Gloss Augmentation for Improving Arabic Target Sense
Verification [1.2891210250935146]
最も一般的なアラビア語のセマンティックラベル付きデータセットはアラブ語である。
本稿では,機械のバックトランスレーションを用いて拡張することで,ArabGlossBERTデータセットの強化について述べる。
我々は、異なるデータ構成を用いて、ターゲットセンス検証(TSV)タスクにBERTを微調整する拡張の影響を計測する。
論文 参考訳(メタデータ) (2023-02-06T21:24:02Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - A Deep CNN Architecture with Novel Pooling Layer Applied to Two Sudanese
Arabic Sentiment Datasets [1.1034493405536276]
2-class Sudanese Sentimentデータセットと3-class Sudanese Sentimentデータセットだ。
5つのCNN層と新しいプール層であるMMAからなるCNNアーキテクチャを提案する。
提案したモデルは、既存のサウジセンティメントデータセットと、85.55%と90.01%の精度でMSAホテルアラビアレビューデータセットに適用される。
論文 参考訳(メタデータ) (2022-01-29T21:33:28Z) - Overview of the Arabic Sentiment Analysis 2021 Competition at KAUST [22.17427488246146]
本稿では,King Abdullah University of Science and Technology(KAUST)が主催するアラビア語知覚分析チャレンジの概要について述べる。
課題は、与えられたツイートをポジティブ、ネガティブ、中立の3つのカテゴリの1つに分類する機械学習モデルを開発することである。
本稿では,トップクラスのチームで使用される手法とツールをまとめた。
論文 参考訳(メタデータ) (2021-09-29T14:41:51Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - A Benchmark Arabic Dataset for Commonsense Explanation [0.6091702876917281]
本稿では,コモンセンス説明のためのベンチマークアラビアデータセットを提案する。
データセットはアラビア語の文で構成されており、その文がなぜ間違っているのかを説明する3つの選択肢があります。
論文 参考訳(メタデータ) (2020-12-18T14:07:10Z) - Exploring and Evaluating Attributes, Values, and Structures for Entity
Alignment [100.19568734815732]
エンティティアライメント(EA)は、さまざまなKGから等価なエンティティをリンクすることで、リッチコンテンツの統合知識グラフ(KG)を構築することを目的としている。
属性・トリプルは重要なアライメント信号も提供できますが、まだ十分に調査されていません。
本稿では,属性値エンコーダを用いてKGをサブグラフに分割し,属性の様々なタイプを効率的にモデル化することを提案する。
論文 参考訳(メタデータ) (2020-10-07T08:03:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。