論文の概要: Language-Independent Sentiment Labelling with Distant Supervision: A Case Study for English, Sepedi and Setswana
- arxiv url: http://arxiv.org/abs/2511.19818v1
- Date: Tue, 25 Nov 2025 01:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.220372
- Title: Language-Independent Sentiment Labelling with Distant Supervision: A Case Study for English, Sepedi and Setswana
- Title(参考訳): ディスタント・スーパービジョンを用いた言語に依存しないセンセーションラベリング:英語・セペディ・セツワナを事例として
- Authors: Koena Ronny Mabokela, Tim Schlippe, Mpho Raborife, Turgay Celik,
- Abstract要約: 本稿では,感情を表わす絵文字や単語からの情報を活用する,言語に依存しない感情ラベル作成手法を提案し,分析する。
私たちの感情ラベル付けアプローチでは、英語のつぶやきを66%、Sepediのつぶやきを69%、Setswanaのつぶやきを63%とラベル付けすることが可能です。
- 参考スコア(独自算出の注目度): 0.3849857432787595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis is a helpful task to automatically analyse opinions and emotions on various topics in areas such as AI for Social Good, AI in Education or marketing. While many of the sentiment analysis systems are developed for English, many African languages are classified as low-resource languages due to the lack of digital language resources like text labelled with corresponding sentiment classes. One reason for that is that manually labelling text data is time-consuming and expensive. Consequently, automatic and rapid processes are needed to reduce the manual effort as much as possible making the labelling process as efficient as possible. In this paper, we present and analyze an automatic language-independent sentiment labelling method that leverages information from sentiment-bearing emojis and words. Our experiments are conducted with tweets in the languages English, Sepedi and Setswana from SAfriSenti, a multilingual sentiment corpus for South African languages. We show that our sentiment labelling approach is able to label the English tweets with an accuracy of 66%, the Sepedi tweets with 69%, and the Setswana tweets with 63%, so that on average only 34% of the automatically generated labels remain to be corrected.
- Abstract(参考訳): 感情分析は、AI for Social Good、AI in Education、マーケティングといった分野におけるさまざまなトピックに関する意見や感情を自動的に分析する上で有用なタスクである。
感情分析システムの多くは英語向けに開発されているが、多くのアフリカの言語は、対応する感情クラスにラベル付けされたテキストのようなデジタル言語資源が欠如しているため、低リソース言語に分類されている。
その理由は、テキストデータを手動でラベル付けるのに時間がかかり、コストがかかるからだ。
これにより、ラベリングプロセスを可能な限り効率的にするために、手作業の労力を極力削減するために、自動的および迅速なプロセスが必要である。
本稿では,感情を表わす絵文字や単語からの情報を活用する,言語に依存しない感情ラベル作成手法を提案する。
南アフリカ語のための多言語感情コーパスであるSAfriSentiの英語、セペディ語、セツワナ語のツイートを用いて実験を行った。
私たちの感情ラベル付けアプローチでは、英語のつぶやきを66%、Sepediのつぶやきを69%、Setswanaのつぶやきを63%の精度でラベル付けすることができます。
関連論文リスト
- SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detection [76.18321723846616]
タスクは7つの異なる言語ファミリーから30以上の言語をカバーしている。
データインスタンスは6つの感情クラスでマルチラベルされており、感情の強さに注釈を付けた11言語にデータセットが追加されている。
参加者は, (a) マルチラベル感情検出, (b) 感情強度スコア検出, (c) 言語間感情検出の3つのトラックでラベルの予測を依頼された。
論文 参考訳(メタデータ) (2025-03-10T12:49:31Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - English Prompts are Better for NLI-based Zero-Shot Emotion
Classification than Target-Language Prompts [17.099269597133265]
たとえデータが異なる言語であっても、英語のプロンプトを使う方が一貫して良いことを示す。
自然言語推論に基づく言語モデルを用いた実験は、データが異なる言語である場合でも、英語のプロンプトを使う方が一貫して良いことを示す。
論文 参考訳(メタデータ) (2024-02-05T17:36:19Z) - Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter [9.359018642178917]
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
論文 参考訳(メタデータ) (2021-01-28T13:05:09Z) - Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation [77.69102711230248]
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T15:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。