Fugu-MT 論文翻訳(概要): ArBanking77: Intent Detection Neural Model and a New Dataset in Modern and Dialectical Arabic

論文の概要: ArBanking77: Intent Detection Neural Model and a New Dataset in Modern and Dialectical Arabic

arxiv url: http://arxiv.org/abs/2310.19034v1
Date: Sun, 29 Oct 2023 14:46:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 14:50:09.359340
Title: ArBanking77: Intent Detection Neural Model and a New Dataset in Modern and Dialectical Arabic
Title（参考訳）: ArBanking77: Intent Detection Neural Modelと現代アラビア語と方言アラビア語の新しいデータセット
Authors: Mustafa Jarrar, Ahmet Birim, Mohammed Khalilia, Mustafa Erden, Sana Ghanem
Abstract要約: 本稿では,銀行ドメインにおける意図検出のための大規模アラビア語データセットであるArBanking77について述べる。我々のデータセットは、現代標準アラビア語(MSA)とパレスチナ方言の両方で31,404のクエリで、もともとのBritish Banking77データセットからアラベライズされ、ローカライズされた。 AraBERTに基づくニューラルネットワークをArBanking77で微調整し,MSAおよびパレスチナ方言で0.9209と0.8995のF1スコアを達成した。
参考スコア（独自算出の注目度）: 0.4999814847776097
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper presents the ArBanking77, a large Arabic dataset for intent detection in the banking domain. Our dataset was arabized and localized from the original English Banking77 dataset, which consists of 13,083 queries to ArBanking77 dataset with 31,404 queries in both Modern Standard Arabic (MSA) and Palestinian dialect, with each query classified into one of the 77 classes (intents). Furthermore, we present a neural model, based on AraBERT, fine-tuned on ArBanking77, which achieved an F1-score of 0.9209 and 0.8995 on MSA and Palestinian dialect, respectively. We performed extensive experimentation in which we simulated low-resource settings, where the model is trained on a subset of the data and augmented with noisy queries to simulate colloquial terms, mistakes and misspellings found in real NLP systems, especially live chat queries. The data and the models are publicly available at https://sina.birzeit.edu/arbanking77.
Abstract（参考訳）: 本稿では,銀行ドメインにおける意図検出のための大規模アラビア語データセットArBanking77を提案する。このデータセットは、ArBanking77データセットへの13,083のクエリで構成され、モダン標準アラビア語(MSA)とパレスチナ方言の両方で31,404のクエリを持ち、各クエリは77のクラスの1つに分類されている。さらに, AraBERTに基づくニューラルネットワークをArBanking77で微調整し, MSAおよびパレスチナ方言でそれぞれ0.9209と0.8995のF1スコアを達成した。そこで我々は,データのサブセット上でモデルをトレーニングし,ノイズの多いクエリを付加し,実際のnlpシステム,特にライブチャットクエリに見られる語句,誤り,ミススペルをシミュレートする低リソース設定をシミュレートする実験を行った。データとモデルはhttps://sina.birzeit.edu/arbanking77.comで公開されている。

関連論文リスト

Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。 RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文参考訳（メタデータ） (2025-05-25T23:06:20Z)
AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。 AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文参考訳（メタデータ） (2024-07-18T02:13:50Z)
AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.65095045762524]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。 AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文参考訳（メタデータ） (2024-07-11T10:03:47Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。アラビアサデータセットの公開ベンチマーク実験を行った。
論文参考訳（メタデータ） (2023-09-24T19:26:53Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
A Parameter-Efficient Learning Approach to Arabic Dialect Identification with Pre-Trained General-Purpose Speech Model [9.999900422312098]
我々は、アラビア方言識別(ADI)のためのGSMを条件にトークンレベルのラベルマッピングを開発する。我々は,バニラ微調整により,ADI-17データセット上で最先端の精度を実現する。本研究は、小さなデータセットを用いてアラビア方言を識別する方法を示し、オープンソースコードと事前訓練されたモデルで制限する。
論文参考訳（メタデータ） (2023-05-18T18:15:53Z)
A Deep CNN Architecture with Novel Pooling Layer Applied to Two Sudanese Arabic Sentiment Datasets [1.1034493405536276]
2-class Sudanese Sentimentデータセットと3-class Sudanese Sentimentデータセットだ。 5つのCNN層と新しいプール層であるMMAからなるCNNアーキテクチャを提案する。提案したモデルは、既存のサウジセンティメントデータセットと、85.55%と90.01%の精度でMSAホテルアラビアレビューデータセットに適用される。
論文参考訳（メタデータ） (2022-01-29T21:33:28Z)
Interpreting Arabic Transformer Models [18.98681439078424]
我々は、アラビア語の様々な種類に基づいて訓練された、アラビア語の事前訓練されたモデルにおいて、言語情報がどのように符号化されているかを探る。 MSA(現代の標準アラビア語)に基づく2つの形態的タグ付けタスクと、方言のPOSタグ付けタスクと、方言の識別タスクである。
論文参考訳（メタデータ） (2022-01-19T06:32:25Z)
DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文参考訳（メタデータ） (2020-06-05T19:54:34Z)
The Inception Team at NSURL-2019 Task 8: Semantic Question Similarity in Arabic [0.76146285961466]
本稿では,アラビア語における意味的質問類似性の課題について述べる。目的は、提供されたデータセットに対して、アラビア語で同様の意味論を検出できるモデルを構築することである。
論文参考訳（メタデータ） (2020-04-24T19:52:40Z)
Parameter Space Factorization for Zero-Shot Learning across Tasks and Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文参考訳（メタデータ） (2020-01-30T16:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。