論文の概要: USTHB at NADI 2023 shared task: Exploring Preprocessing and Feature
Engineering Strategies for Arabic Dialect Identification
- arxiv url: http://arxiv.org/abs/2312.10536v1
- Date: Sat, 16 Dec 2023 20:23:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:09:06.390594
- Title: USTHB at NADI 2023 shared task: Exploring Preprocessing and Feature
Engineering Strategies for Arabic Dialect Identification
- Title(参考訳): USTHB at NADI 2023 shared task: Exploring Preprocessing and Feature Engineering Strategies for Arabic Dialect Identification (英語)
- Authors: Mohamed Lichouri, Khaled Lounnas, Aicha Zitouni, Houda Latrache,
Rachida Djeradi
- Abstract要約: 本研究では,表面前処理,形態前処理,FastTextベクトルモデル,TF-IDF特性の重み付け結合の影響について検討する。
評価段階では,F1スコアが62.51%となる,注目すべき結果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we conduct an in-depth analysis of several key factors
influencing the performance of Arabic Dialect Identification NADI'2023, with a
specific focus on the first subtask involving country-level dialect
identification. Our investigation encompasses the effects of surface
preprocessing, morphological preprocessing, FastText vector model, and the
weighted concatenation of TF-IDF features. For classification purposes, we
employ the Linear Support Vector Classification (LSVC) model. During the
evaluation phase, our system demonstrates noteworthy results, achieving an F1
score of 62.51%. This achievement closely aligns with the average F1 scores
attained by other systems submitted for the first subtask, which stands at
72.91%.
- Abstract(参考訳): 本稿では、アラビア方言識別NADI'2023の性能に影響を及ぼすいくつかの重要な要因を詳細に分析し、国レベルの方言識別を含む第1サブタスクに着目した。
本研究は, 表面前処理, 形態前処理, FastTextベクトルモデル, TF-IDF特性の重み付け結合の影響について検討する。
分類にはLinear Support Vector Classification (LSVC)モデルを用いる。
評価段階では,F1スコアが62.51%となる,注目すべき結果が得られた。
この成果は、最初のサブタスクで提出された他のシステムによって達成された平均F1スコアと密接に一致しており、72.91%である。
関連論文リスト
- dzNLP at NADI 2024 Shared Task: Multi-Classifier Ensemble with Weighted Voting and TF-IDF Features [0.0]
本稿では,dzNLPチームのNADI 2024共有タスクへの貢献について述べる。
我々のアプローチは、従来の機械学習技術に頼りながら、F1スコアと精度の点で競争性能を実証した。
私たちのモデルは極めて正確でしたが、幅広い方言ラベルを思い出すのに苦労し、改善すべき重要な領域を強調しました。
論文 参考訳(メタデータ) (2024-07-18T15:47:42Z) - Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation [50.60733773088296]
音声言語翻訳国際ワークショップ(IWSLT 2023)における共有タスクの結果を総合的に評価する。
本稿では,セグメントコンテキストによる自動回帰と直接評価に基づく効果的な評価戦略を提案する。
分析の結果,1) 提案した評価戦略は頑健であり,他の種類の人的判断とよく相関している,2) 自動測定基準は通常,必ずしも直接評価スコアとよく関連しているわけではない,3) COMET は chrF よりもわずかに強い自動測定基準である,といった結果を得た。
論文 参考訳(メタデータ) (2024-06-06T09:18:42Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through
Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。
このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。
テストデータセットでF1スコア76.65 (11位)を達成した。
論文 参考訳(メタデータ) (2023-11-30T17:37:56Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - NEMO: Frequentist Inference Approach to Constrained Linguistic Typology
Feature Prediction in SIGTYP 2020 Shared Task [83.43738174234053]
タイプ的特徴間の相関関係を表現するために頻繁な推論を用い、この表現を用いて、個々の特徴を予測する単純なマルチクラス推定器を訓練する。
テスト言語149言語に対して,マイクロ平均精度0.66を達成できた。
論文 参考訳(メタデータ) (2020-10-12T19:25:43Z) - OSACT4 Shared Task on Offensive Language Detection: Intensive
Preprocessing-Based Approach [0.0]
本研究では,前処理フェーズがアラビア文字のテキスト分類に与える影響について検討する。
ソーシャルメディアで使われるアラビア語は非公式であり、アラビア語の方言を用いて書かれており、テキスト分類作業は非常に複雑である。
集中的な前処理に基づくアプローチは、攻撃的な言語検出とヘイトスピーチ検出に大きな影響を与えることを示す。
論文 参考訳(メタデータ) (2020-05-14T23:46:10Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。