論文の概要: Dialect Identification in Nuanced Arabic Tweets Using Farasa
Segmentation and AraBERT
- arxiv url: http://arxiv.org/abs/2102.09749v2
- Date: Mon, 22 Feb 2021 06:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 11:41:00.958467
- Title: Dialect Identification in Nuanced Arabic Tweets Using Farasa
Segmentation and AraBERT
- Title(参考訳): Farasa Segmentation と AraBERT を用いたナンスアラビアつぶやきの方言識別
- Authors: Anshul Wadhawan
- Abstract要約: 本稿では,EACL WANLP-2021共有タスク1:Nuanced Arabic Dialect Identification (NADI)について述べる。
この課題は、現代の標準アラビア語や方言の形でアラビア語のつぶやきが発せられる場所(国・地域)を識別するシステムを開発することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our approach to address the EACL WANLP-2021 Shared Task
1: Nuanced Arabic Dialect Identification (NADI). The task is aimed at
developing a system that identifies the geographical location(country/province)
from where an Arabic tweet in the form of modern standard Arabic or dialect
comes from. We solve the task in two parts. The first part involves
pre-processing the provided dataset by cleaning, adding and segmenting various
parts of the text. This is followed by carrying out experiments with different
versions of two Transformer based models, AraBERT and AraELECTRA. Our final
approach achieved macro F1-scores of 0.216, 0.235, 0.054, and 0.043 in the four
subtasks, and we were ranked second in MSA identification subtasks and fourth
in DA identification subtasks.
- Abstract(参考訳): 本稿では,EACL WANLP-2021 Shared Task 1: Nuanced Arabic Dialect Identification (NADI) へのアプローチについて述べる。
この課題は、現代の標準アラビア語や方言の形でアラビア語のつぶやきが発せられる場所(国・地域)を識別するシステムを開発することを目的としている。
私たちはその仕事を2つの部分で解決する。
第1部は、テキストの様々な部分をクリーニング、追加、セグメンテーションすることにより、提供されたデータセットを前処理することを含む。
その後、2つのTransformerベースのモデルであるAraBERTとAraELECTRAの異なるバージョンで実験が行われた。
最終アプローチは4つのサブタスクにおいて0.216, 0.235, 0.054, 0.043のマクロF1スコアを獲得し, MSA識別サブタスクでは2位, DA識別サブタスクでは4位となった。
関連論文リスト
- NADI 2024: The Fifth Nuanced Arabic Dialect Identification Shared Task [28.40134178913119]
第5回Nuanced Arabic Dialect Identification Shared Task(NADI 2024)の発見について述べる。
NADI 2024は、多ラベル課題としての方言の識別と、アラビア語の方言のレベルを識別することの両方を目標とした。
優勝チームはSubtask1で50.57 Ftextsubscript1、Subtask2で0.1403 RMSE、Subtask3で20.44 BLEUを達成した。
論文 参考訳(メタデータ) (2024-07-06T01:18:58Z) - SemEval-2024 Task 8: Multidomain, Multimodel and Multilingual Machine-Generated Text Detection [68.858931667807]
Subtask Aは、テキストが人間によって書かれたか、機械によって生成されたかを決定するバイナリ分類タスクである。
サブタスクBは、テキストの正確なソースを検出し、それが人間によって書かれたか、特定のLCMによって生成されたかを認識する。
Subtask Cは、著者が人間から機械へ遷移するテキスト内の変化点を特定することを目的としている。
論文 参考訳(メタデータ) (2024-04-22T13:56:07Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through
Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。
このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。
テストデータセットでF1スコア76.65 (11位)を達成した。
論文 参考訳(メタデータ) (2023-11-30T17:37:56Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - AraBERT and Farasa Segmentation Based Approach For Sarcasm and Sentiment
Detection in Arabic Tweets [0.0]
サブタスクの1つは、あるアラビア語のツイートが本質的にサッカスティックであるかどうかを識別するシステムを開発することです。
もう1つは、アラビア語のツイートの感情を特定することを目的としている。
最終アプローチはSarcasmとSentiment Detectionのサブタスクでそれぞれ7位と4位にランクされた。
論文 参考訳(メタデータ) (2021-03-02T12:33:50Z) - Arabic Dialect Identification Using BERT-Based Domain Adaptation [0.0]
アラビア語は世界で最も重要で成長している言語の一つです
Twitterなどのソーシャルメディアプラットフォームが台頭すると、アラビア語の方言がより使われるようになった。
論文 参考訳(メタデータ) (2020-11-13T15:52:51Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Multi-Dialect Arabic BERT for Country-Level Dialect Identification [1.2928709656541642]
提案する実験と、競合するチームであるMawdoo3 AIによって開発されたモデルについて述べる。
方言識別サブタスクは、アラブ21カ国すべてをカバーする21,000の国レベルのラベル付きつぶやきを提供する。
優勝したソリューションの事前学習された言語モデルコンポーネントを、Multi-dialect-Arabic-BERTモデルの名称で公開します。
論文 参考訳(メタデータ) (2020-07-10T21:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。