論文の概要: dzNLP at NADI 2024 Shared Task: Multi-Classifier Ensemble with Weighted Voting and TF-IDF Features
- arxiv url: http://arxiv.org/abs/2407.13608v1
- Date: Thu, 18 Jul 2024 15:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:51:11.002965
- Title: dzNLP at NADI 2024 Shared Task: Multi-Classifier Ensemble with Weighted Voting and TF-IDF Features
- Title(参考訳): dzNLP at NADI 2024 Shared Task: Multi-classifier Ensemble with Weighted Voting and TF-IDF Features
- Authors: Mohamed Lichouri, Khaled Lounnas, Boualem Nadjib Zahaf, Mehdi Ayoub Rabiai,
- Abstract要約: 本稿では,dzNLPチームのNADI 2024共有タスクへの貢献について述べる。
我々のアプローチは、従来の機械学習技術に頼りながら、F1スコアと精度の点で競争性能を実証した。
私たちのモデルは極めて正確でしたが、幅広い方言ラベルを思い出すのに苦労し、改善すべき重要な領域を強調しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the contribution of our dzNLP team to the NADI 2024 shared task, specifically in Subtask 1 - Multi-label Country-level Dialect Identification (MLDID) (Closed Track). We explored various configurations to address the challenge: in Experiment 1, we utilized a union of n-gram analyzers (word, character, character with word boundaries) with different n-gram values; in Experiment 2, we combined a weighted union of Term Frequency-Inverse Document Frequency (TF-IDF) features with various weights; and in Experiment 3, we implemented a weighted major voting scheme using three classifiers: Linear Support Vector Classifier (LSVC), Random Forest (RF), and K-Nearest Neighbors (KNN). Our approach, despite its simplicity and reliance on traditional machine learning techniques, demonstrated competitive performance in terms of F1-score and precision. Notably, we achieved the highest precision score of 63.22% among the participating teams. However, our overall F1 score was approximately 21%, significantly impacted by a low recall rate of 12.87%. This indicates that while our models were highly precise, they struggled to recall a broad range of dialect labels, highlighting a critical area for improvement in handling diverse dialectal variations.
- Abstract(参考訳): 本稿では,我々のdzNLPチームによるNADI 2024共有タスクへの貢献について,特にSubtask 1- Multi-label Country-level Dialect Identification (MLDID) (Closed Track) において述べる。
実験1ではn-gramアナライザ(単語,文字,文字,単語境界)と異なるn-gram値の結合を利用し,実験2では項周波数-逆文書周波数(TF-IDF)の重み付けを様々な重み付けで組み合わせ,実験3では線形支援ベクトル分類器(LSVC),ランダムフォレスト(RF),K-Nearest Neighbors(KNN)の3つの分類器を用いた重み付きメジャー投票方式を実装した。
我々のアプローチは、従来の機械学習技術に頼りながら、F1スコアと精度の点で競争性能を実証した。
特に、私たちは参加チームの中で63.22%という高い精度のスコアを獲得しました。
しかし、F1の総得点は約21%で、リコール率は12.87%と大幅に低下した。
これは、我々のモデルは極めて正確であったにもかかわらず、幅広い方言ラベルを思い出すのに苦労し、多様な方言のバリエーションを扱う上で重要な領域を浮き彫りにしたことを示している。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - USTHB at NADI 2023 shared task: Exploring Preprocessing and Feature
Engineering Strategies for Arabic Dialect Identification [0.0]
本研究では,表面前処理,形態前処理,FastTextベクトルモデル,TF-IDF特性の重み付け結合の影響について検討する。
評価段階では,F1スコアが62.51%となる,注目すべき結果が得られた。
論文 参考訳(メタデータ) (2023-12-16T20:23:53Z) - Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through
Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。
このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。
テストデータセットでF1スコア76.65 (11位)を達成した。
論文 参考訳(メタデータ) (2023-11-30T17:37:56Z) - Two-stage Pipeline for Multilingual Dialect Detection [0.0]
本稿では,VarDial 2023共有タスクに対する我々のアプローチについて概説する。
3つの言語から3つまたは2つの方言を識別する。
トラック1では58.54%、トラック2では85.61%のスコアを得る。
論文 参考訳(メタデータ) (2023-03-06T20:35:51Z) - UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。
We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文 参考訳(メタデータ) (2022-04-28T08:35:26Z) - UniCon: Unified Context Network for Robust Active Speaker Detection [111.90529347692723]
我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。
私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。
異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
論文 参考訳(メタデータ) (2021-08-05T13:25:44Z) - Neighborhood Contrastive Learning for Novel Class Discovery [79.14767688903028]
我々は,クラスタリング性能に重要な識別表現を学習するために,Neighborhood Contrastive Learningという新しいフレームワークを構築した。
これらの2つの成分がクラスタリング性能に大きく寄与し、我々のモデルが最先端の手法よりも大きなマージンで優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-20T17:34:55Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - Multi-Label Sentiment Analysis on 100 Languages with Dynamic Weighting
for Label Imbalance [0.0]
言語間感情分析は、市場研究、政治、社会科学など様々な分野に応用されているため、大きな注目を集めている。
Plutchikの感情の輪に従えば、マルチラベル設定で感情分析フレームワークを導入する。
提案手法は,3つの異なる言語において,9つの指標のうち7つで最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-26T14:16:02Z) - Multi-Task Learning for Interpretable Weakly Labelled Sound Event
Detection [34.99472489405047]
本稿では,Wakly Labelled Audioデータから学習するマルチタスク学習フレームワークを提案する。
選択した補助タスクは内部のT-F表現を消音し、ノイズの多い記録下でのSED性能を向上させる。
提案した全フレームワークは、すべてのSNRで既存のベンチマークモデルを上回っている。
論文 参考訳(メタデータ) (2020-08-17T04:46:25Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。