論文の概要: Language-Independent Sentiment Labelling with Distant Supervision: A Case Study for English, Sepedi and Setswana
- arxiv url: http://arxiv.org/abs/2511.19818v1
- Date: Tue, 25 Nov 2025 01:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.220372
- Title: Language-Independent Sentiment Labelling with Distant Supervision: A Case Study for English, Sepedi and Setswana
- Title(参考訳): ディスタント・スーパービジョンを用いた言語に依存しないセンセーションラベリング:英語・セペディ・セツワナを事例として
- Authors: Koena Ronny Mabokela, Tim Schlippe, Mpho Raborife, Turgay Celik,
- Abstract要約: 本稿では,感情を表わす絵文字や単語からの情報を活用する,言語に依存しない感情ラベル作成手法を提案し,分析する。
私たちの感情ラベル付けアプローチでは、英語のつぶやきを66%、Sepediのつぶやきを69%、Setswanaのつぶやきを63%とラベル付けすることが可能です。
- 参考スコア(独自算出の注目度): 0.3849857432787595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis is a helpful task to automatically analyse opinions and emotions on various topics in areas such as AI for Social Good, AI in Education or marketing. While many of the sentiment analysis systems are developed for English, many African languages are classified as low-resource languages due to the lack of digital language resources like text labelled with corresponding sentiment classes. One reason for that is that manually labelling text data is time-consuming and expensive. Consequently, automatic and rapid processes are needed to reduce the manual effort as much as possible making the labelling process as efficient as possible. In this paper, we present and analyze an automatic language-independent sentiment labelling method that leverages information from sentiment-bearing emojis and words. Our experiments are conducted with tweets in the languages English, Sepedi and Setswana from SAfriSenti, a multilingual sentiment corpus for South African languages. We show that our sentiment labelling approach is able to label the English tweets with an accuracy of 66%, the Sepedi tweets with 69%, and the Setswana tweets with 63%, so that on average only 34% of the automatically generated labels remain to be corrected.
- Abstract(参考訳): 感情分析は、AI for Social Good、AI in Education、マーケティングといった分野におけるさまざまなトピックに関する意見や感情を自動的に分析する上で有用なタスクである。
感情分析システムの多くは英語向けに開発されているが、多くのアフリカの言語は、対応する感情クラスにラベル付けされたテキストのようなデジタル言語資源が欠如しているため、低リソース言語に分類されている。
その理由は、テキストデータを手動でラベル付けるのに時間がかかり、コストがかかるからだ。
これにより、ラベリングプロセスを可能な限り効率的にするために、手作業の労力を極力削減するために、自動的および迅速なプロセスが必要である。
本稿では,感情を表わす絵文字や単語からの情報を活用する,言語に依存しない感情ラベル作成手法を提案する。
南アフリカ語のための多言語感情コーパスであるSAfriSentiの英語、セペディ語、セツワナ語のツイートを用いて実験を行った。
私たちの感情ラベル付けアプローチでは、英語のつぶやきを66%、Sepediのつぶやきを69%、Setswanaのつぶやきを63%の精度でラベル付けすることができます。
関連論文リスト
- Cross-lingual Opinions and Emotions Mining in Comparable Documents [0.0]
本研究は、英語とアラビア語に匹敵する文書における感情と感情の相違について研究する。
我々は、英語のWordNet-Affect(WNA)レキシコンをアラビア語に手動で翻訳し、それに匹敵するコーパスをラベル付けするバイリンガル感情レキシコンを作成する。
その結果、感情と感情のアノテーションは、記事が同一の報道機関から来たときに一致し、異なる記事から来たときに発散することがわかった。
論文 参考訳(メタデータ) (2025-08-05T05:44:28Z) - SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detection [76.18321723846616]
タスクは7つの異なる言語ファミリーから30以上の言語をカバーしている。
データインスタンスは6つの感情クラスでマルチラベルされており、感情の強さに注釈を付けた11言語にデータセットが追加されている。
参加者は, (a) マルチラベル感情検出, (b) 感情強度スコア検出, (c) 言語間感情検出の3つのトラックでラベルの予測を依頼された。
論文 参考訳(メタデータ) (2025-03-10T12:49:31Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - You Shall Know a Tool by the Traces it Leaves: The Predictability of Sentiment Analysis Tools [74.98850427240464]
感情分析ツールが同じデータセットで一致しないことを示す。
感傷的アノテーションに使用される感情ツールは,その結果から予測できることを示す。
論文 参考訳(メタデータ) (2024-10-18T17:27:38Z) - Lexicon-Based Sentiment Analysis on Text Polarities with Evaluation of Classification Models [1.342834401139078]
本研究は,レキシコン法を用いて感情分析を行い,テキストデータを用いた分類モデルの評価を行った。
語彙に基づく手法は、単語レベルでの感情と主観性の強さを識別する。
この研究は、テキストが正、負、中立とラベル付けされているというマルチクラスの問題に基づいている。
論文 参考訳(メタデータ) (2024-09-19T15:31:12Z) - English Prompts are Better for NLI-based Zero-Shot Emotion
Classification than Target-Language Prompts [17.099269597133265]
たとえデータが異なる言語であっても、英語のプロンプトを使う方が一貫して良いことを示す。
自然言語推論に基づく言語モデルを用いた実験は、データが異なる言語である場合でも、英語のプロンプトを使う方が一貫して良いことを示す。
論文 参考訳(メタデータ) (2024-02-05T17:36:19Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter [9.359018642178917]
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
論文 参考訳(メタデータ) (2021-01-28T13:05:09Z) - Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation [77.69102711230248]
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T15:44:55Z) - BAKSA at SemEval-2020 Task 9: Bolstering CNN with Self-Attention for
Sentiment Analysis of Code Mixed Text [4.456122555367167]
本稿では,畳み込みニューラルネット(CNN)と自己注意に基づくLSTMのアンサンブルアーキテクチャを提案する。
我々はヒンディー語(ヒングリッシュ)とスペイン語(スパングリッシュ)のデータセットでそれぞれ0.707と0.725のスコアを得た。
論文 参考訳(メタデータ) (2020-07-21T14:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。