論文の概要: Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identification
- arxiv url: http://arxiv.org/abs/2512.04257v1
- Date: Wed, 03 Dec 2025 20:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.875051
- Title: Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identification
- Title(参考訳): 計算言語学とリビア方言 : 方言識別に関する研究
- Authors: Mansour Essgaer, Khamis Massud, Rabia Al Mamlook, Najah Ghmaid,
- Abstract要約: 使用されるデータセットはQADIコーパスであり、18のアラビア方言で54万の文からなる。
カイ二乗分析の結果,メールの言及や感情指標などの特定の特徴が方言の分類に大きく関連していないことが明らかとなった。
分類実験の結果、MNB(Multinomial Naive Bayes)は85.89%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates logistic regression, linear support vector machine, multinomial Naive Bayes, and Bernoulli Naive Bayes for classifying Libyan dialect utterances gathered from Twitter. The dataset used is the QADI corpus, which consists of 540,000 sentences across 18 Arabic dialects. Preprocessing challenges include handling inconsistent orthographic variations and non-standard spellings typical of the Libyan dialect. The chi-square analysis revealed that certain features, such as email mentions and emotion indicators, were not significantly associated with dialect classification and were thus excluded from further analysis. Two main experiments were conducted: (1) evaluating the significance of meta-features extracted from the corpus using the chi-square test and (2) assessing classifier performance using different word and character n-gram representations. The classification experiments showed that Multinomial Naive Bayes (MNB) achieved the highest accuracy of 85.89% and an F1-score of 0.85741 when using a (1,2) word n-gram and (1,5) character n-gram representation. In contrast, Logistic Regression and Linear SVM exhibited slightly lower performance, with maximum accuracies of 84.41% and 84.73%, respectively. Additional evaluation metrics, including log loss, Cohen kappa, and Matthew correlation coefficient, further supported the effectiveness of MNB in this task. The results indicate that carefully selected n-gram representations and classification models play a crucial role in improving the accuracy of Libyan dialect identification. This study provides empirical benchmarks and insights for future research in Arabic dialect NLP applications.
- Abstract(参考訳): 本研究では,ロジスティック回帰,線形サポートベクターマシン,マルチノミアル・ネイブベイズ,ベルヌーイ・ネイブベイズを用いて,Twitterから収集したリビア方言の発話を分類する。
使用されるデータセットはQADIコーパスであり、18のアラビア方言で54万の文からなる。
前処理の課題には、一貫性のない正書法とリビア方言の典型的な非標準綴りの扱いが含まれる。
カイ二乗分析の結果,メールの言及や感情指標などの特定の特徴が方言の分類に大きく関連していないことが明らかとなり,さらなる分析から除外された。
1) コーパスから抽出したメタ機能の重要性を, チ二乗検定を用いて評価し, 異なる単語と文字n-gram表現を用いて分類器の性能を評価する。
分類実験により, (1,2) ワード n-gram と (1,5) 文字 n-gram を用いて, MNB (Multinomial Naive Bayes) が85.89%, F1スコア 0.85741 に達した。
対して、ロジスティック回帰と線形SVMは、それぞれ84.41%と84.73%の最大精度で若干低い性能を示した。
ログ損失、コーエンカッパ、マシュー相関係数などの追加評価指標は、このタスクにおけるMNBの有効性をさらに支持した。
その結果, 慎重に選択したn-gram表現と分類モデルが, リビア方言識別の精度向上に重要な役割を担っていることが示唆された。
本研究は、アラビア方言のNLP応用における将来の研究のための実証的なベンチマークと洞察を提供する。
関連論文リスト
- Tokenization and Representation Biases in Multilingual Models on Dialectal NLP Tasks [7.216732751280017]
我々は、事前学習された多言語モデルにおける表現バイアスの尺度として、トークン化パリティ(TP)と情報化パリティ(IP)を関連付ける。
我々は,最先端デコーダのみのLLMと,方言分類,話題分類,抽出質問応答の3つのタスクからなるエンコーダベースモデルを比較した。
分析の結果,TPは統語的・形態的手法に依存したタスクの性能を予測し,IPは意味的タスクのパフォーマンスを予測できることがわかった。
論文 参考訳(メタデータ) (2025-09-24T12:13:53Z) - Dialetto, ma Quanto Dialetto? Transcribing and Evaluating Dialects on a Continuum [25.732397636695882]
イタリア語方言における音声とテキストのパフォーマンスを測定し,地理的な特徴の相違を実証的に観察する。
この格差は(-0.5)言語的に最もパフォーマンスの高い方言とほぼ類似している。
さらに, 地学的手法を用いて, 見えない場所でのゼロショット性能を予測し, 地理的情報の導入により予測性能を大幅に向上する。
論文 参考訳(メタデータ) (2024-10-18T16:39:42Z) - On the Proper Treatment of Tokenization in Psycholinguistics [53.960910019072436]
論文は、トークンレベルの言語モデルは、精神言語学研究で使用される前に、文字レベルの言語モデルにマージ化されるべきであると主張している。
興味領域自体のサブプライムよりも心理学的予測が優れている様々な焦点領域を見いだす。
論文 参考訳(メタデータ) (2024-10-03T17:18:03Z) - A Comparative Study on TF-IDF feature Weighting Method and its Analysis
using Unstructured Dataset [0.5156484100374058]
用語周波数-逆文書周波数(TF-IDF)と自然言語処理(NLP)は、テキスト分類において最もよく用いられる情報検索手法である。
本研究では,非構造化データのテキスト分類における特徴重み付け手法の検討と解析を行った。
提案モデルは、IMDB映画レビューにおけるN-GramsとTF-IDFと、感情分析のためのAmazon Alexaレビューデータセットの2つの特徴を検討した。
論文 参考訳(メタデータ) (2023-08-08T04:27:34Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。
本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文 参考訳(メタデータ) (2022-11-13T23:59:11Z) - Automatic Language Identification for Celtic Texts [0.0]
この研究は、ケルト語族を例に、関連する低リソース言語の識別に対処する。
アイルランド語、スコットランド語、ウェールズ語、英語のレコードを含む新しいデータセットを収集しました。
我々は、クラスタリング、オートエンコーダ、トピックモデリングメソッドの出力と並行して、従来の統計的特徴を持つSVMやニューラルネットワークなどの教師付きモデルをテストする。
論文 参考訳(メタデータ) (2022-03-09T16:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。