Fugu-MT 論文翻訳(概要): Arabic Dialect Identification in the Wild

論文の概要: Arabic Dialect Identification in the Wild

arxiv url: http://arxiv.org/abs/2005.06557v2
Date: Fri, 15 May 2020 08:23:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-03 13:07:03.327683
Title: Arabic Dialect Identification in the Wild
Title（参考訳）: 野生のアラビア語方言の識別
Authors: Ahmed Abdelali, Hamdy Mubarak, Younes Samih, Sabit Hassan, Kareem Darwish
Abstract要約: 国レベルのアラビア方言に属するつぶやきを自動的に収集するQADIを提案する。このデータセットには、アラブ18カ国に均等に分散している2,525人のユーザーの540万のツイートが含まれている。
参考スコア（独自算出の注目度）: 10.010733302895938
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present QADI, an automatically collected dataset of tweets belonging to a wide range of country-level Arabic dialects -covering 18 different countries in the Middle East and North Africa region. Our method for building this dataset relies on applying multiple filters to identify users who belong to different countries based on their account descriptions and to eliminate tweets that are either written in Modern Standard Arabic or contain inappropriate language. The resultant dataset contains 540k tweets from 2,525 users who are evenly distributed across 18 Arab countries. Using intrinsic evaluation, we show that the labels of a set of randomly selected tweets are 91.5% accurate. For extrinsic evaluation, we are able to build effective country-level dialect identification on tweets with a macro-averaged F1-score of 60.6% across 18 classes.
Abstract（参考訳）: QADIは、中東と北アフリカの18カ国をカバーし、様々な国レベルのアラビア語方言に属するツイートを自動的に収集するデータセットである。このデータセットを構築するには、アカウント記述に基づいて異なる国に属するユーザを特定するために複数のフィルタを適用し、モダン標準アラビア語で書かれたツイートや不適切な言語を含むツイートを除去する。その結果得られたデータセットには、18のアラブ諸国に均等に分布する2,525人のユーザーの540万ツイートが含まれている。固有評価を用いて、ランダムに選択されたツイートのラベルが91.5%正確であることを示す。外部評価では、18のクラスで平均60.6%のF1スコアで、ツイート上で有効な国レベルの方言識別を構築することができる。

関連論文リスト

ARCADE: A City-Scale Corpus for Fine-Grained Arabic Dialect Tagging [4.23980289430769]
我々は、都市レベルの方言の粒度を明示的に設計した最初のアラビア語音声データセットARCADEを提示する。コーパスは、アラブ世界のストリーミングサービスから収集されたアラビアのラジオ音声で構成されている。その結果得られたコーパスは、19か国58都市にまたがる6,907のアノテーションと3,790のユニークなオーディオセグメントで構成されている。
論文参考訳（メタデータ） (2026-01-05T15:32:17Z)
Arabic Dialect Classification using RNNs, Transformers, and Large Language Models: A Comparative Analysis [0.0]
アラビア語は世界でも最も人気のある言語の一つであり、22か国で話される方言が多種多様である。本研究では、アラビア語のツイートのQADIデータセットの18のアラビア方言を分類する問題に対処する。このうち、MARBERTv2は65%の精度、64%のF1スコアで最高の成績を収めた。
論文参考訳（メタデータ） (2025-06-24T16:06:58Z)
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文参考訳（メタデータ） (2024-06-27T22:38:04Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。テストデータセットでF1スコア76.65 (11位)を達成した。
論文参考訳（メタデータ） (2023-11-30T17:37:56Z)
ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。 AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文参考訳（メタデータ） (2023-10-20T18:07:39Z)
SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。 SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文参考訳（メタデータ） (2023-05-22T16:25:07Z)
AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文参考訳（メタデータ） (2023-02-17T15:40:12Z)
ORCA: A Challenging Benchmark for Arabic Language Understanding [8.9379057739817]
ORCAはアラビア語理解評価のための公開ベンチマークである。アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
論文参考訳（メタデータ） (2022-12-21T04:35:43Z)
Comprehensive Benchmark Datasets for Amharic Scene Text Detection and Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。 HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文参考訳（メタデータ） (2022-03-23T03:19:35Z)
Sentiment analysis in tweets: an assessment study from classical to modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文参考訳（メタデータ） (2021-05-29T21:05:28Z)
Arabic Offensive Language on Twitter: Analysis and Experiments [9.879488163141813]
トピック,方言,ターゲットに偏らないデータセットを構築する方法を提案する。我々は、下品さと憎しみのスピーチに特別なタグを付けた、これまでで最大のアラビア語データセットを作成します。
論文参考訳（メタデータ） (2020-04-05T13:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。