論文の概要: Irony Detection in Urdu Text: A Comparative Study Using Machine Learning Models and Large Language Models
- arxiv url: http://arxiv.org/abs/2510.22356v1
- Date: Sat, 25 Oct 2025 16:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.10819
- Title: Irony Detection in Urdu Text: A Comparative Study Using Machine Learning Models and Large Language Models
- Title(参考訳): ウルドゥー語テキストにおける皮肉検出:機械学習モデルと大規模言語モデルを用いた比較研究
- Authors: Fiaz Ahmad, Nisar Hussain, Amna Qasim, Momina Hafeez, Muhammad Usman Grigori Sidorov, Alexander Gelbukh,
- Abstract要約: 我々は、英語のIronic Corpusをウルドゥー語に翻訳することで、ウルドゥー語における皮肉を検出することを目指している。
我々はGloVeとWord2Vecの埋め込みを用いて10種類の最先端機械学習アルゴリズムを評価する。
- 参考スコア(独自算出の注目度): 35.63955196370033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ironic identification is a challenging task in Natural Language Processing, particularly when dealing with languages that differ in syntax and cultural context. In this work, we aim to detect irony in Urdu by translating an English Ironic Corpus into the Urdu language. We evaluate ten state-of-the-art machine learning algorithms using GloVe and Word2Vec embeddings, and compare their performance with classical methods. Additionally, we fine-tune advanced transformer-based models, including BERT, RoBERTa, LLaMA 2 (7B), LLaMA 3 (8B), and Mistral, to assess the effectiveness of large-scale models in irony detection. Among machine learning models, Gradient Boosting achieved the best performance with an F1-score of 89.18%. Among transformer-based models, LLaMA 3 (8B) achieved the highest performance with an F1-score of 94.61%. These results demonstrate that combining transliteration techniques with modern NLP models enables robust irony detection in Urdu, a historically low-resource language.
- Abstract(参考訳): 皮肉な識別は自然言語処理において難しい課題であり、特に構文や文化的文脈が異なる言語を扱う場合である。
本研究では,英語のIronic Corpusをウルドゥー語に翻訳することで,ウルドゥー語における皮肉を検出することを目的とする。
我々はGloVeとWord2Vecの埋め込みを用いて10種類の最先端機械学習アルゴリズムを評価し、それらの性能を古典的手法と比較した。
さらに, BERT, RoBERTa, LLaMA 2 (7B), LLaMA 3 (8B), Mistral などの高精度トランスフォーマーモデルを用いて, アイロン検出における大規模モデルの有効性を評価する。
機械学習モデルの中で、グラディエント・ブースティングは89.18%のF1スコアで最高のパフォーマンスを達成した。
トランスフォーマーベースのモデルの中で、LLaMA 3 (8B) はF1スコア94.61%で最高性能を達成した。
これらの結果から, 歴史的低リソース言語であるUrduにおいて, トランスリテラル技術と最新のNLPモデルを組み合わせることで, 堅牢な皮肉検出が可能であることが示唆された。
関連論文リスト
- Transformer-Based Low-Resource Language Translation: A Study on Standard Bengali to Sylheti [0.0]
細調整多言語変換器モデルによるベンガル-シルヘティ変換について検討する。
実験により、微調整モデルが大規模言語モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-20T16:29:24Z) - mmBERT: A Modern Multilingual Encoder with Annealed Language Learning [57.58071656545661]
mmBERTは、多言語テキストの3Tトークンで事前訓練されたエンコーダのみの言語モデルである。
データに1700以上の低リソース言語を追加しています。
分類および検索タスクにおける従来のモデルよりも, mmBERTの方が優れていたことを示す。
論文 参考訳(メタデータ) (2025-09-08T17:08:42Z) - An Efficient Approach for Machine Translation on Low-resource Languages: A Case Study in Vietnamese-Chinese [1.6932009464531739]
ベトナム中国語などの低リソース言語で機械翻訳を行う手法を提案する。
提案手法は,多言語事前学習言語モデル(mBART)とベトナム語と中国語の単言語コーパスのパワーを利用した。
論文 参考訳(メタデータ) (2025-01-31T17:11:45Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Transformers for Low-Resource Languages:Is F\'eidir Linn! [2.648836772989769]
一般に、ニューラルネットワークモデルは訓練データが不十分な言語ペアで実行されることが多い。
適切なパラメータを選択することで、パフォーマンスが大幅に向上することを示す。
Transformer最適化モデルでは,ベースラインRNNモデルと比較してBLEUスコアが7.8ポイント向上した。
論文 参考訳(メタデータ) (2024-03-04T12:29:59Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Learning Compact Metrics for MT [21.408684470261342]
最先端多言語モデルであるRemBERTを用いて,多言語性とモデルキャパシティのトレードオフについて検討する。
モデルのサイズが実際に言語間移動のボトルネックであることを示し、蒸留がこのボトルネックにどのように対処できるかを示す。
提案手法は,バニラ微調整よりも最大10.5%向上し,パラメータの3分の1しか使用せず,RemBERTの性能の92.6%に達する。
論文 参考訳(メタデータ) (2021-10-12T20:39:35Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。