論文の概要: Dialect Identification in Nuanced Arabic Tweets Using Farasa
Segmentation and AraBERT
- arxiv url: http://arxiv.org/abs/2102.09749v2
- Date: Mon, 22 Feb 2021 06:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 11:41:00.958467
- Title: Dialect Identification in Nuanced Arabic Tweets Using Farasa
Segmentation and AraBERT
- Title(参考訳): Farasa Segmentation と AraBERT を用いたナンスアラビアつぶやきの方言識別
- Authors: Anshul Wadhawan
- Abstract要約: 本稿では,EACL WANLP-2021共有タスク1:Nuanced Arabic Dialect Identification (NADI)について述べる。
この課題は、現代の標準アラビア語や方言の形でアラビア語のつぶやきが発せられる場所(国・地域)を識別するシステムを開発することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our approach to address the EACL WANLP-2021 Shared Task
1: Nuanced Arabic Dialect Identification (NADI). The task is aimed at
developing a system that identifies the geographical location(country/province)
from where an Arabic tweet in the form of modern standard Arabic or dialect
comes from. We solve the task in two parts. The first part involves
pre-processing the provided dataset by cleaning, adding and segmenting various
parts of the text. This is followed by carrying out experiments with different
versions of two Transformer based models, AraBERT and AraELECTRA. Our final
approach achieved macro F1-scores of 0.216, 0.235, 0.054, and 0.043 in the four
subtasks, and we were ranked second in MSA identification subtasks and fourth
in DA identification subtasks.
- Abstract(参考訳): 本稿では,EACL WANLP-2021 Shared Task 1: Nuanced Arabic Dialect Identification (NADI) へのアプローチについて述べる。
この課題は、現代の標準アラビア語や方言の形でアラビア語のつぶやきが発せられる場所(国・地域)を識別するシステムを開発することを目的としている。
私たちはその仕事を2つの部分で解決する。
第1部は、テキストの様々な部分をクリーニング、追加、セグメンテーションすることにより、提供されたデータセットを前処理することを含む。
その後、2つのTransformerベースのモデルであるAraBERTとAraELECTRAの異なるバージョンで実験が行われた。
最終アプローチは4つのサブタスクにおいて0.216, 0.235, 0.054, 0.043のマクロF1スコアを獲得し, MSA識別サブタスクでは2位, DA識別サブタスクでは4位となった。
関連論文リスト
- ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [53.1913348687902]
アラビア語に対する最初のマルチタスク言語理解ベンチマークであるアラビアMMLUを提示する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575の多重選択質問からなる。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through
Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。
このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。
テストデータセットでF1スコア76.65 (11位)を達成した。
論文 参考訳(メタデータ) (2023-11-30T17:37:56Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - BERT-based Multi-Task Model for Country and Province Level Modern
Standard Arabic and Dialectal Arabic Identification [1.1254693939127909]
本稿では,現代標準アラビア語(MSA)と方言アラビア語(DA)の国レベルおよび州レベルの識別のための第2次NADI共有課題に提出したディープラーニングに基づくシステムについて述べる。
その結果,MTLモデルは,ほとんどのサブタスクにおいて単一タスクモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-23T16:07:58Z) - AraBERT and Farasa Segmentation Based Approach For Sarcasm and Sentiment
Detection in Arabic Tweets [0.0]
サブタスクの1つは、あるアラビア語のツイートが本質的にサッカスティックであるかどうかを識別するシステムを開発することです。
もう1つは、アラビア語のツイートの感情を特定することを目的としている。
最終アプローチはSarcasmとSentiment Detectionのサブタスクでそれぞれ7位と4位にランクされた。
論文 参考訳(メタデータ) (2021-03-02T12:33:50Z) - Arabic Dialect Identification Using BERT-Based Domain Adaptation [0.0]
アラビア語は世界で最も重要で成長している言語の一つです
Twitterなどのソーシャルメディアプラットフォームが台頭すると、アラビア語の方言がより使われるようになった。
論文 参考訳(メタデータ) (2020-11-13T15:52:51Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Multi-Dialect Arabic BERT for Country-Level Dialect Identification [1.2928709656541642]
提案する実験と、競合するチームであるMawdoo3 AIによって開発されたモデルについて述べる。
方言識別サブタスクは、アラブ21カ国すべてをカバーする21,000の国レベルのラベル付きつぶやきを提供する。
優勝したソリューションの事前学習された言語モデルコンポーネントを、Multi-dialect-Arabic-BERTモデルの名称で公開します。
論文 参考訳(メタデータ) (2020-07-10T21:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。