論文の概要: News Headlines Dataset For Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2212.06035v1
- Date: Sat, 17 Sep 2022 22:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 06:59:39.353710
- Title: News Headlines Dataset For Sarcasm Detection
- Title(参考訳): 皮肉検出のためのニュース見出しデータセット
- Authors: Rishabh Misra
- Abstract要約: Sarcasm Detectionにおける過去の研究は、主にハッシュタグベースの監視を使用して収集されたTwitterデータセットを使用している。
多くのツイートは、他のつぶやきに対する返信であり、これら中の皮肉を検出するには、文脈的なつぶやきの可用性が必要である。
TheOnionは、現在のイベントのサーカシックなバージョンを作ることを目標としているが、HuffPostは本当のニュースを公開している。
データセットには約28Kの見出しが含まれており、そのうち13Kは皮肉である。
- 参考スコア(独自算出の注目度): 1.7513645771137178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Past studies in Sarcasm Detection mostly make use of Twitter datasets
collected using hashtag-based supervision but such datasets are noisy in terms
of labels and language. Furthermore, many tweets are replies to other tweets,
and detecting sarcasm in these requires the availability of contextual tweets.
To overcome the limitations related to noise in Twitter datasets, we curate
News Headlines Dataset from two news websites: TheOnion aims at producing
sarcastic versions of current events, whereas HuffPost publishes real news. The
dataset contains about 28K headlines out of which 13K are sarcastic. To make it
more useful, we have included the source links of the news articles so that
more data can be extracted as needed. In this paper, we describe various
details about the dataset and potential use cases apart from Sarcasm Detection.
- Abstract(参考訳): Sarcasm Detectionにおける過去の研究は、主にハッシュタグベースの監視を使用して収集されたTwitterデータセットを使用しているが、ラベルや言語の観点からはノイズが多い。
さらに、多くのツイートは、他のつぶやきに対する返信であり、これら中の皮肉を検出するには、文脈的ツイートの可用性が必要である。
Twitterデータセットのノイズに関する制限を克服するため、News Headlines Datasetを2つのニュースウェブサイトからキュレートしました。
データセットには約28Kの見出しが含まれている。
より便利にするために、必要に応じてより多くのデータを抽出できるように、ニュース記事のソースリンクを含めました。
本稿では,sarcasm検出を別にして,データセットと潜在的なユースケースについて詳細に述べる。
関連論文リスト
- Sarcasm Detection in a Disaster Context [103.93691731605163]
HurricaneSARCは,意図した皮肉に注釈を付けた15,000ツイートのデータセットである。
私たちの最高のモデルは、データセットで最大0.70F1を得ることができます。
論文 参考訳(メタデータ) (2023-08-16T05:58:12Z) - BanglaSarc: A Dataset for Sarcasm Detection [0.3914676152740142]
Sarcasmは、今日のソーシャルメディアプラットフォームで広く採用されている、ネガティブな動機に基づく肯定的な発言や発言である。
過去数年間、英語におけるサルカズム検出は大幅に改善されてきたが、バングラのサルカズム検出に関する状況は変わっていない。
本稿では,Bangla Sarcを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:28:21Z) - Manipulating Twitter Through Deletions [64.33261764633504]
Twitter上でのインフルエンスキャンペーンの研究は、公開APIを通じて得られたツイートから悪意のあるアクティビティを識別することに大きく依存している。
ここでは,1100万以上のアカウントによる10億以上の削除を含む,異常な削除パターンを網羅的かつ大規模に分析する。
少数のアカウントが毎日大量のツイートを削除していることがわかった。
まず、ツイートのボリューム制限が回避され、特定のアカウントが毎日2600万以上のツイートをネットワークに流すことができる。
第二に、調整されたアカウントのネットワークは、繰り返しのいいね!や、最終的に削除されるコンテンツとは違って、ランキングアルゴリズムを操作できる。
論文 参考訳(メタデータ) (2022-03-25T20:07:08Z) - Perceived and Intended Sarcasm Detection with Graph Attention Networks [7.6146285961466]
社会的研究は、著者と聴衆の関係が、皮肉な用法と解釈に等しく関係していることを示唆している。
本研究では,(1)過去のツイートからのユーザコンテキストと(2)対話グラフにおけるユーザの会話近隣からのソーシャル情報とを併用したフレームワークを提案する。
会話スレッドでは,ユーザとツイートにグラフアテンションネットワーク(GAT)を,ユーザ履歴の密度の高い表現と組み合わせて使用する。
論文 参考訳(メタデータ) (2021-10-08T09:52:42Z) - Sarcasm Detection in Twitter -- Performance Impact when using Data
Augmentation: Word Embeddings [0.0]
サルカスム(Sarcasm)は、通常、誰かをモックしたり、困惑させたり、ユーモラスな目的のために使われる言葉である。
本稿では,RoBERTaを用いたTwitterにおける皮肉識別のコンテキストモデルを提案する。
サーカシックとラベル付けされたデータの20%を増やすために、データ拡張を使用する場合、iSarcasmデータセットで3.2%の性能向上を実現した。
論文 参考訳(メタデータ) (2021-08-23T04:24:12Z) - User Preference-aware Fake News Detection [61.86175081368782]
既存の偽ニュース検出アルゴリズムは、詐欺信号のニュースコンテンツをマイニングすることに焦点を当てている。
本稿では,共同コンテンツとグラフモデリングにより,ユーザの好みから様々な信号を同時にキャプチャする新しいフレームワークUPFDを提案する。
論文 参考訳(メタデータ) (2021-04-25T21:19:24Z) - ArCOV19-Rumors: Arabic COVID-19 Twitter Dataset for Misinformation
Detection [6.688963029270579]
ArCOV19-Rumorsは、1月27日から2020年4月末までのクレームを含むツイートからなる誤情報検出のためのアラビア語のTwitterデータセットである。
本誌は138件の確認済みのクレームを、主に人気ファクトチェックサイトから収集し、それらのクレームに関連する9.4万件のツイートを特定した。
ツイートは、パンデミックで直面した主要な問題の一つである誤情報検出の研究を支援するために、正確さで手動で注釈付けされた。
論文 参考訳(メタデータ) (2020-10-17T11:21:40Z) - "Did you really mean what you said?" : Sarcasm Detection in
Hindi-English Code-Mixed Data using Bilingual Word Embeddings [0.0]
我々は、カスタム単語埋め込みを訓練するためのツイートのコーパスと、皮肉検出のためのラベル付きHinglishデータセットを提示する。
我々は,ヒンディー語と英語の混合ツイートにおける皮肉検出の問題に対処するために,ディープラーニングに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-01T11:41:44Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - HoaxItaly: a collection of Italian disinformation and fact-checking
stories shared on Twitter in 2019 [72.96986027203377]
データセットには約37Kのニュース記事のタイトルとボディも含まれている。
https://doi.org/10.79DVN/PGVDHXで公開されている。
論文 参考訳(メタデータ) (2020-01-29T16:14:47Z) - On Identifying Hashtags in Disaster Twitter Data [55.17975121160699]
我々は,行動可能な情報をフィルタリングするのに有用なハッシュタグを付加した災害関連ツイートのユニークなデータセットを構築した。
このデータセットを用いて,マルチタスク学習フレームワークにおける長期記憶モデルについて検討する。
最高のパフォーマンスモデルでは、F1スコアは92.22%に達する。
論文 参考訳(メタデータ) (2020-01-05T22:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。