論文の概要: Machine learning and emoji prediction: How much accuracy can MARBERT achieve?
- arxiv url: http://arxiv.org/abs/2604.21108v2
- Date: Fri, 24 Apr 2026 08:02:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 13:34:22.037864
- Title: Machine learning and emoji prediction: How much accuracy can MARBERT achieve?
- Title(参考訳): 機械学習と絵文字予測: MARBERTはどの程度の精度で達成できるのか?
- Authors: Mohammed Q. Shormani, Ibrahim Abdulmalik Hassan Muneef Y. Alshawsh,
- Abstract要約: 本研究では,(最先端)MARBERTモデルを用いたアラビア語ツイートにおける絵文字の予測について検討した。
複数のアラビア方言を表す11379のCAツイートのコーパスがPython経由でX.comから収集された。
前処理パイプラインは解釈可能なベースラインとして設計され,語彙的特徴と絵文字のカテゴリの関係を調べることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study investigates Machine Learning (ML) in the prediction of emojis in Arabic tweets employing the (state-of-the-art) MARBERT model. A corpus of 11379 CA tweets representing multiple Arabic colloquial dialects was collected from X.com via Python. A net dataset includes 8695 tweets, which were utilized for the analysis. These tweets were then classified into 14 categories, which were numerically encoded and used as labels. A preprocessing pipeline was designed as an interpretable baseline, allowing us to examine the relationship between lexical features and emoji categories. MARBERT was finetuned to predict emoji use from textual input. We evaluated the model performance in terms of precision, recall and F1-scores. Findings reveal that the model performed quite well with an overall accuracy 0.75. The study concludes that although the findings are promising, there is still a need for improving machine learning models including MARBERT, specifically for low-resource and multidialectal languages like Arabic.
- Abstract(参考訳): 本研究では,(最先端)MARBERTモデルを用いたアラビア語ツイートの絵文字予測における機械学習(ML)について検討した。
複数のアラビア方言を表す11379のCAツイートのコーパスがPython経由でX.comから収集された。
ネットデータセットには8695のツイートが含まれており、分析に使用された。
その後、これらのツイートは14のカテゴリに分類され、数値的にエンコードされ、ラベルとして使用された。
前処理パイプラインは解釈可能なベースラインとして設計され,語彙的特徴と絵文字のカテゴリの関係を調べることができる。
MARBERTはテキスト入力から絵文字の使用を予測するために微調整された。
モデル性能を精度,リコール,F1スコアで評価した。
結果, モデル全体の精度は0.75。
調査結果は有望ではあるが、MARBERTを含む機械学習モデルを改善する必要があると結論付けている。
関連論文リスト
- Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identification [0.0]
使用されるデータセットはQADIコーパスであり、18のアラビア方言で54万の文からなる。
カイ二乗分析の結果,メールの言及や感情指標などの特定の特徴が方言の分類に大きく関連していないことが明らかとなった。
分類実験の結果、MNB(Multinomial Naive Bayes)は85.89%の精度を達成した。
論文 参考訳(メタデータ) (2025-12-03T20:54:06Z) - Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - Performance Evaluation of Sentiment Analysis on Text and Emoji Data Using End-to-End, Transfer Learning, Distributed and Explainable AI Models [0.12499537119440242]
ツイートの感情分析をKaggleの絵文字データセット上で行った。
両モデルのテキスト分類精度は98%前後でほぼ同じであった。
検証セットがトレーニングセットに存在しない絵文字を使用して構築されると、両方のモデルの精度は劇的に低下し、70%に低下した。
論文 参考訳(メタデータ) (2025-02-18T20:58:37Z) - Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art [83.95594027644124]
我々は,この問題を認識タスクとみなし,新しいベンチマークASCIIEvalを構築した。
精巧な分類木を持つ3Kサンプルに加えて、さらなる拡張のためのトレーニングセットもカバーしている。
テキスト入力が与えられた言語モデルは、ASCIIアートの概念に基づいて視覚的知覚能力を示す。
画像入力において,オープンソースのMLLMは,微細なテキスト認識と集合的視覚知覚のトレードオフに悩まされていることが明らかになった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - Political Sentiment Analysis of Persian Tweets Using CNN-LSTM Model [0.356008609689971]
ペルシャの政治ツイートの分析感情に機械学習とディープラーニングモデルを提案する。
ParsBERTの埋め込みによるディープラーニングは、機械学習よりも優れている。
論文 参考訳(メタデータ) (2023-07-15T08:08:38Z) - emojiSpace: Spatial Representation of Emojis [0.0]
そこで本研究では,Python の Genism ライブラリから word2vec モデルを用いて,単語-絵文字を組み込んだ絵文字空間を構築した。
われわれは40億以上のツイートからなるコーパスで絵文字スペースをトレーニングし、6700万以上のツイートを含むTwitterデータセットで感情分析を実施して評価した。
論文 参考訳(メタデータ) (2022-09-12T13:57:31Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - AraGPT2: Pre-Trained Transformer for Arabic Language Generation [0.0]
我々は,インターネットテキストとニュース記事の巨大なアラビア語コーパスをスクラッチから学習した,最初の先進アラビア語言語生成モデルであるalagpt2を開発した。
当社の最大のモデルであるAraGPT2-megaは、1.46億のパラメータを持ち、アラビア言語モデルとして最大です。
テキスト生成では、wikipediaの記事に29.8のパープレキシティを達成する。
論文 参考訳(メタデータ) (2020-12-31T09:48:05Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。