論文の概要: From Human Annotation to Automation: LLM-in-the-Loop Active Learning for Arabic Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2509.23515v1
- Date: Sat, 27 Sep 2025 22:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.268677
- Title: From Human Annotation to Automation: LLM-in-the-Loop Active Learning for Arabic Sentiment Analysis
- Title(参考訳): 人間のアノテーションから自動化へ:アラビア感覚分析のためのLLM-in-the-Loop Active Learning
- Authors: Dania Refai, Alaa Dalaq, Doaa Dalaq, Irfan Ahmad,
- Abstract要約: 注釈を補助し、その性能を人間のラベルと比較する大規模言語モデル(LLM)は、アラビア語の文脈ではいまだに探索されていない。
ハイパフォーマンスを維持しつつアノテーションコストを削減するためにアラビア感情分析のための能動的学習フレームワークを提案する。
GPT-4o for Hunger Station、Claude 3 Sonnet for AJGT、DeepSeek Chat。
- 参考スコア(独自算出の注目度): 1.4874449172133888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language processing (NLP), particularly sentiment analysis, plays a vital role in areas like marketing, customer service, and social media monitoring by providing insights into user opinions and emotions. However, progress in Arabic sentiment analysis remains limited due to the lack of large, high-quality labeled datasets. While active learning has proven effective in reducing annotation efforts in other languages, few studies have explored it in Arabic sentiment tasks. Likewise, the use of large language models (LLMs) for assisting annotation and comparing their performance to human labeling is still largely unexplored in the Arabic context. In this paper, we propose an active learning framework for Arabic sentiment analysis designed to reduce annotation costs while maintaining high performance. We evaluate multiple deep learning architectures: Specifically, long short-term memory (LSTM), gated recurrent units (GRU), and recurrent neural networks (RNN), across three benchmark datasets: Hunger Station, AJGT, and MASAC, encompassing both modern standard Arabic and dialectal variations. Additionally, two annotation strategies are compared: Human labeling and LLM-assisted labeling. Five LLMs are evaluated as annotators: GPT-4o, Claude 3 Sonnet, Gemini 2.5 Pro, DeepSeek Chat, and LLaMA 3 70B Instruct. For each dataset, the best-performing LLM was used: GPT-4o for Hunger Station, Claude 3 Sonnet for AJGT, and DeepSeek Chat for MASAC. Our results show that LLM-assisted active learning achieves competitive or superior performance compared to human labeling. For example, on the Hunger Station dataset, the LSTM model achieved 93% accuracy with only 450 labeled samples using GPT-4o-generated labels, while on the MASAC dataset, DeepSeek Chat reached 82% accuracy with 650 labeled samples, matching the accuracy obtained through human labeling.
- Abstract(参考訳): 自然言語処理(NLP)、特に感情分析は、マーケティング、カスタマーサービス、ソーシャルメディア監視といった分野において、ユーザの意見や感情に対する洞察を提供することで重要な役割を果たす。
しかし、アラビア語の感情分析の進歩は、大規模で高品質なラベル付きデータセットが不足しているため、依然として限られている。
能動的学習は、他の言語におけるアノテーションの努力を減らすのに有効であることが証明されているが、アラビア語の感情タスクでそれを探求する研究はほとんどない。
同様に、注釈を補助し、その性能を人間のラベルと比較するために、大きな言語モデル(LLM)を使うことは、アラビア語の文脈ではいまだに探索されていない。
本稿では,ハイパフォーマンスを維持しつつ,アノテーションのコスト削減を目的としたアラビア語感情分析のための能動的学習フレームワークを提案する。
具体的には、Hunger Station、AJGT、MASACの3つのベンチマークデータセットにまたがって、LSTM(Long Short-term memory)、ゲートリカレントユニット(GRU)、リカレントニューラルネットワーク(RNN)の評価を行った。
さらに、ヒューマンラベリングとLDM支援ラベリングの2つのアノテーション戦略を比較した。
GPT-4o、Claude 3 Sonnet、Gemini 2.5 Pro、DeepSeek Chat、LLaMA 3 70Bの5つのLCMがアノテーションとして評価されている。
GPT-4o for Hunger Station、Claude 3 Sonnet for AJGT、DeepSeek Chat for MASAC。
以上の結果から,LLMを用いた能動学習は,人間のラベリングに比べて,競争力や優れた性能を達成できることが示唆された。
例えば、Hunger Stationデータセットでは、LSTMモデルは、GPT-4o生成ラベルを用いた450個のラベル付きサンプルで93%の精度を達成し、MASACデータセットでは、DeepSeek Chatは650個のラベル付きサンプルで82%の精度に達し、人間のラベル付けによって得られた精度と一致した。
関連論文リスト
- Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT [4.574416868427695]
本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。
本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
論文 参考訳(メタデータ) (2024-04-03T02:12:29Z) - Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。
我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。
LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文 参考訳(メタデータ) (2024-03-27T22:05:10Z) - Active Learning for NLP with Large Language Models [4.1967870107078395]
アクティブラーニング(AL)テクニックは、可能な限り少数のサンプルをラベル付けして、合理的あるいは同様の結果に到達することができる。
本研究では,3つのデータセットにサンプルをラベル付けするためにLLM(Large Language Models)を使用することの正確さとコストについて検討する。
論文 参考訳(メタデータ) (2024-01-14T21:00:52Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Wisdom of Instruction-Tuned Language Model Crowds. Exploring Model Label Variation [37.14258903995738]
LLM(Large Language Models)は、優れたテキスト分類機能を示す。
近年の研究では,データアノテーションにおけるラベルの変動を考慮したことの重要性が強調されている。
我々は,4言語にまたがる5つの主観的タスクに対して,最近の4つの命令調整LDMをアノテータとして評価した。
論文 参考訳(メタデータ) (2023-07-24T17:49:31Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - LAraBench: Benchmarking Arabic AI with Large Language Models [26.249084464525044]
LAraBenchはこのギャップをアラビア自然言語処理(NLP)と音声処理タスクに対処している。
我々は、GPT-3.5-turbo、GPT-4、BLOOMZ、Jais-13b-chat、Whisper、USMといったモデルを用いて、61のデータセットで33の異なるタスクに取り組む。
これには,296Kデータポイント,46時間スピーチ,テキスト音声(TTS)30文を含む98の実験的セットアップが含まれていた。
論文 参考訳(メタデータ) (2023-05-24T10:16:16Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。