論文の概要: Hotter and Colder: A New Approach to Annotating Sentiment, Emotions, and Bias in Icelandic Blog Comments
- arxiv url: http://arxiv.org/abs/2502.16987v1
- Date: Mon, 24 Feb 2025 09:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:19.678698
- Title: Hotter and Colder: A New Approach to Annotating Sentiment, Emotions, and Bias in Icelandic Blog Comments
- Title(参考訳): Hotter and Colder: アイスランドのブログコメントでセンチメント、感情、バイアスを注釈付けするための新しいアプローチ
- Authors: Steinunn Rut Friðriksdóttir, Dan Saattrup Nielsen, Hafsteinn Einarsson,
- Abstract要約: Hotter and Colderはアイスランドのブログコメントで、さまざまなタイプのオンライン行動を分析するために設計されたデータセットである。
GPT-4o miniを用いて感情分析、感情検出、ヘイトスピーチ、グループ一般化を含む25のタスクに約80,000のコメントをアノテートした。
- 参考スコア(独自算出の注目度): 2.91872340568037
- License:
- Abstract: This paper presents Hotter and Colder, a dataset designed to analyze various types of online behavior in Icelandic blog comments. Building on previous work, we used GPT-4o mini to annotate approximately 800,000 comments for 25 tasks, including sentiment analysis, emotion detection, hate speech, and group generalizations. Each comment was automatically labeled on a 5-point Likert scale. In a second annotation stage, comments with high or low probabilities of containing each examined behavior were subjected to manual revision. By leveraging crowdworkers to refine these automatically labeled comments, we ensure the quality and accuracy of our dataset resulting in 12,232 uniquely annotated comments and 19,301 annotations. Hotter and Colder provides an essential resource for advancing research in content moderation and automatically detectiong harmful online behaviors in Icelandic.
- Abstract(参考訳): 本稿では,アイスランドのブログコメントにおいて,さまざまなオンライン行動の分析を目的としたデータセットHotter and Colderを提案する。
GPT-4o miniを用いて、感情分析、感情検出、ヘイトスピーチ、グループ一般化を含む25のタスクに約80,000のコメントをアノテートした。
各コメントは自動的に5ポイントのLikertスケールにラベル付けされた。
第2のアノテーション段階では、各検査行動を含む確率が高いか低いかのコメントを手動で修正した。
クラウドワーカーを活用して、自動的にラベル付けされたコメントを洗練することにより、データセットの品質と精度を保証し、12,232の注釈付きコメントと19,301のアノテーションが生成される。
Hotter and Colderは、コンテンツモデレーションの研究を進め、アイスランドの有害なオンライン行動を自動的に検出するために必要なリソースを提供する。
関連論文リスト
- HOTVCOM: Generating Buzzworthy Comments for Videos [49.39846630199698]
この研究は、中国最大のビデオコンテンツデータセットであるtextscHotVComを紹介し、94万の多様なビデオと1億1700万のコメントからなる。
また、中国語のビデオデータセット上で、視覚的、聴覚的、テキスト的データを相乗的に統合し、影響力のあるホットコンテンツを生成するtexttComHeatフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-23T16:45:13Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - ViCo: Engaging Video Comment Generation with Human Preference Rewards [68.50351391812723]
ビデオコメント生成の課題に対処するために,3つの新しいデザインのViCoを提案する。
コメントのエンゲージメントを定量化するために、各コメントが受け取る「いいね!
コメントのエンゲージメントを自動的に評価するために、我々は報酬モデルをトレーニングし、その判断を上記のプロキシに合わせる。
論文 参考訳(メタデータ) (2023-08-22T04:01:01Z) - ArPanEmo: An Open-Source Dataset for Fine-Grained Emotion Recognition in
Arabic Online Content during COVID-19 Pandemic [0.0]
本稿では,アラビア語におけるオンライン投稿の微粒な感情認識のための新しいデータセットであるArPanEmoデータセットを提案する。
データセットは、10の感情カテゴリまたは中立性のために手動でラベル付けされた11,128のオンライン投稿で構成されており、Fleissのカッパは0.71である。
特定のアラビア語方言をターゲットとし、新型コロナウイルス(COVID-19)のパンデミックに関連する話題に対処する。
論文 参考訳(メタデータ) (2023-05-27T21:04:26Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Seeking Sinhala Sentiment: Predicting Facebook Reactions of Sinhala
Posts [0.16385815610837165]
本稿は、スリランカの文脈を中心としたFacebookの10年分の投稿データから得られた何百万もの反応を利用して、感情検出に対するステークホルダーのアプローチをモデル化する。
3つの異なる感情分析モデルが構築され、反応のサブセットが限定され、全ての反応と、肯定的/負の星の評価値が導出される。
この分析により、シンハラ含有量に対する二項反応の分類は他のアプローチよりもはるかに正確であることが判明した。
論文 参考訳(メタデータ) (2021-12-01T13:05:05Z) - A Dataset for Discourse Structure in Peer Review Discussions [33.621647816641925]
反感からの言論の手がかりは、レビューの品質と解釈に光を当てることができることを示す。
本稿では,20k文のラベル付きデータセットを英語で506対のレビュー・リビュー・ペアに収録し,専門家が注釈を付けた。
論文 参考訳(メタデータ) (2021-10-16T09:18:12Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Investigating label suggestions for opinion mining in German Covid-19
social media [41.89305442562581]
我々は,社会科学の学生を対象に,制御された注釈研究を行うためのガイドラインを策定する。
私たちは、専門家が注釈付けした小さなデータセットでトレーニングされたモデルからの提案が、すでに大幅に改善されていることに気付きました。
提案バイアスの分析から,アノテータは一般に提案されたラベルを反映できることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-27T07:47:53Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - GoEmotions: A Dataset of Fine-Grained Emotions [16.05879383442812]
GoEmotionsは、英語で58万件のRedditコメントを手動で注釈付けした最大のデータセットで、27の感情カテゴリまたはニュートラルにラベル付けされている。
BERTベースのモデルでは、提案された分類学で平均F1スコアの.46を達成し、改善の余地を多く残している。
論文 参考訳(メタデータ) (2020-05-01T18:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。