論文の概要: ArBanking77: Intent Detection Neural Model and a New Dataset in Modern
and Dialectical Arabic
- arxiv url: http://arxiv.org/abs/2310.19034v1
- Date: Sun, 29 Oct 2023 14:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 14:50:09.359340
- Title: ArBanking77: Intent Detection Neural Model and a New Dataset in Modern
and Dialectical Arabic
- Title(参考訳): ArBanking77: Intent Detection Neural Modelと現代アラビア語と方言アラビア語の新しいデータセット
- Authors: Mustafa Jarrar, Ahmet Birim, Mohammed Khalilia, Mustafa Erden, Sana
Ghanem
- Abstract要約: 本稿では,銀行ドメインにおける意図検出のための大規模アラビア語データセットであるArBanking77について述べる。
我々のデータセットは、現代標準アラビア語(MSA)とパレスチナ方言の両方で31,404のクエリで、もともとのBritish Banking77データセットからアラベライズされ、ローカライズされた。
AraBERTに基づくニューラルネットワークをArBanking77で微調整し,MSAおよびパレスチナ方言で0.9209と0.8995のF1スコアを達成した。
- 参考スコア(独自算出の注目度): 0.4999814847776097
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents the ArBanking77, a large Arabic dataset for intent
detection in the banking domain. Our dataset was arabized and localized from
the original English Banking77 dataset, which consists of 13,083 queries to
ArBanking77 dataset with 31,404 queries in both Modern Standard Arabic (MSA)
and Palestinian dialect, with each query classified into one of the 77 classes
(intents). Furthermore, we present a neural model, based on AraBERT, fine-tuned
on ArBanking77, which achieved an F1-score of 0.9209 and 0.8995 on MSA and
Palestinian dialect, respectively. We performed extensive experimentation in
which we simulated low-resource settings, where the model is trained on a
subset of the data and augmented with noisy queries to simulate colloquial
terms, mistakes and misspellings found in real NLP systems, especially live
chat queries. The data and the models are publicly available at
https://sina.birzeit.edu/arbanking77.
- Abstract(参考訳): 本稿では,銀行ドメインにおける意図検出のための大規模アラビア語データセットArBanking77を提案する。
このデータセットは、ArBanking77データセットへの13,083のクエリで構成され、モダン標準アラビア語(MSA)とパレスチナ方言の両方で31,404のクエリを持ち、各クエリは77のクラスの1つに分類されている。
さらに, AraBERTに基づくニューラルネットワークをArBanking77で微調整し, MSAおよびパレスチナ方言でそれぞれ0.9209と0.8995のF1スコアを達成した。
そこで我々は,データのサブセット上でモデルをトレーニングし,ノイズの多いクエリを付加し,実際のnlpシステム,特にライブチャットクエリに見られる語句,誤り,ミススペルをシミュレートする低リソース設定をシミュレートする実験を行った。
データとモデルはhttps://sina.birzeit.edu/arbanking77.comで公開されている。
関連論文リスト
- AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.65095045762524]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。
ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。
AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [53.1913348687902]
アラビア語に対する最初のマルチタスク言語理解ベンチマークであるアラビアMMLUを提示する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575の多重選択質問からなる。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - A Parameter-Efficient Learning Approach to Arabic Dialect Identification
with Pre-Trained General-Purpose Speech Model [9.999900422312098]
我々は、アラビア方言識別(ADI)のためのGSMを条件にトークンレベルのラベルマッピングを開発する。
我々は,バニラ微調整により,ADI-17データセット上で最先端の精度を実現する。
本研究は、小さなデータセットを用いてアラビア方言を識別する方法を示し、オープンソースコードと事前訓練されたモデルで制限する。
論文 参考訳(メタデータ) (2023-05-18T18:15:53Z) - A Deep CNN Architecture with Novel Pooling Layer Applied to Two Sudanese
Arabic Sentiment Datasets [1.1034493405536276]
2-class Sudanese Sentimentデータセットと3-class Sudanese Sentimentデータセットだ。
5つのCNN層と新しいプール層であるMMAからなるCNNアーキテクチャを提案する。
提案したモデルは、既存のサウジセンティメントデータセットと、85.55%と90.01%の精度でMSAホテルアラビアレビューデータセットに適用される。
論文 参考訳(メタデータ) (2022-01-29T21:33:28Z) - Interpreting Arabic Transformer Models [18.98681439078424]
我々は、アラビア語の様々な種類に基づいて訓練された、アラビア語の事前訓練されたモデルにおいて、言語情報がどのように符号化されているかを探る。
MSA(現代の標準アラビア語)に基づく2つの形態的タグ付けタスクと、方言のPOSタグ付けタスクと、方言の識別タスクである。
論文 参考訳(メタデータ) (2022-01-19T06:32:25Z) - The Inception Team at NSURL-2019 Task 8: Semantic Question Similarity in
Arabic [0.76146285961466]
本稿では,アラビア語における意味的質問類似性の課題について述べる。
目的は、提供されたデータセットに対して、アラビア語で同様の意味論を検出できるモデルを構築することである。
論文 参考訳(メタデータ) (2020-04-24T19:52:40Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。