論文の概要: Written and spoken corpus of real and fake social media postings about
COVID-19
- arxiv url: http://arxiv.org/abs/2310.04237v1
- Date: Fri, 6 Oct 2023 13:21:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-09 16:18:22.383870
- Title: Written and spoken corpus of real and fake social media postings about
COVID-19
- Title(参考訳): 新型コロナウイルスに関する事実と偽のソーシャルメディア投稿のテキストと音声コーパス
- Authors: Ng Bee Chin, Ng Zhi Ee Nicole, Kyla Kwan, Lee Yong Han Dylann, Liu
Fang, Xu Hong
- Abstract要約: データは言語データ中のパターンを検出するためにLingguistic Inquiry and Word Count (LIWC)ソフトウェアを用いて分析された。
その結果, 偽ニュースと実ニュースを区別する言語的特徴の集合が, 文章データと音声データの両方で示されることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the linguistic traits of fake news and real news.
There are two parts to this study: text data and speech data. The text data for
this study consisted of 6420 COVID-19 related tweets re-filtered from Patwa et
al. (2021). After cleaning, the dataset contained 3049 tweets, with 2161
labeled as 'real' and 888 as 'fake'. The speech data for this study was
collected from TikTok, focusing on COVID-19 related videos. Research assistants
fact-checked each video's content using credible sources and labeled them as
'Real', 'Fake', or 'Questionable', resulting in a dataset of 91 real entries
and 109 fake entries from 200 TikTok videos with a total word count of 53,710
words. The data was analysed using the Linguistic Inquiry and Word Count (LIWC)
software to detect patterns in linguistic data. The results indicate a set of
linguistic features that distinguish fake news from real news in both written
and speech data. This offers valuable insights into the role of language in
shaping trust, social media interactions, and the propagation of fake news.
- Abstract(参考訳): 本研究では,偽ニュースと実ニュースの言語的特徴について検討する。
この研究にはテキストデータと音声データという2つの部分がある。
この研究のテキストデータは、Patwaらによる6420のCOVID-19関連ツイート(2021年)から得られた。
削除後、データセットには3049のつぶやきがあり、2161は「リアル」、888は「フェイク」と表示された。
この研究の音声データはtiktokから収集され、covid-19関連ビデオに焦点が当てられた。
リサーチアシスタントは、信頼できるソースを使用して各ビデオのコンテンツを事実チェックし、それらを'Real'、'Fake'、'Questionable'とラベル付けし、合計53,710ワードのTikTokビデオから91のリアルエントリと109のフェイクエントリのデータセットを作成した。
データは言語データ中のパターンを検出するためにLingguistic Inquiry and Word Count (LIWC)ソフトウェアを用いて分析された。
その結果, 偽ニュースと実ニュースを区別する言語的特徴が, 文章データと音声データの両方で示された。
これは、信頼の形成、ソーシャルメディアの相互作用、フェイクニュースの伝播における言語の役割に関する貴重な洞察を提供する。
関連論文リスト
- LTCR: Long-Text Chinese Rumor Detection Dataset [14.503426768310536]
LTCRという長文中国噂データセットが提案されている。
データセットは、それぞれ1,729件のリアルニュースと500件のフェイクニュースで構成されている。
実ニュースと偽ニュースの平均長は約230文字と152文字である。
論文 参考訳(メタデータ) (2023-06-12T16:03:36Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - UrduFake@FIRE2021: Shared Track on Fake News Identification in Urdu [55.41644538483948]
本研究は、ウルドゥー語で偽ニュースを検出するために、UrduFake@FIRE2021と名付けられた2番目の共有タスクを報告した。
提案システムは、様々なカウントベースの特徴に基づいており、異なる分類器とニューラルネットワークアーキテクチャを使用していた。
勾配降下(SGD)アルゴリズムは他の分類器よりも優れ、0.679Fスコアを達成した。
論文 参考訳(メタデータ) (2022-07-11T19:15:04Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Cross-lingual COVID-19 Fake News Detection [54.125563009333995]
低リソース言語(中国語)における新型コロナウイルスの誤報を検出するための最初の試みは、高リソース言語(英語)における事実チェックされたニュースのみを用いて行われる。
そこで我々は、クロスランガルなニュースボディテキストを共同でエンコードし、ニュースコンテンツをキャプチャするCrossFakeというディープラーニングフレームワークを提案する。
実験結果から,クロスランガル環境下でのCrossFakeの有効性が示された。
論文 参考訳(メタデータ) (2021-10-13T04:44:02Z) - AraCOVID19-MFH: Arabic COVID-19 Multi-label Fake News and Hate Speech
Detection Dataset [0.0]
「AraCOVID19-MFH」は、アラビア・COVID-19の偽ニュースとヘイトスピーチ検出データセットを手動で注釈付けしたものである。
当社のデータセットには、10の異なるラベルで注釈付けされた10,828のアラビア語ツイートが含まれています。
ヘイトスピーチの検出、意見/ニュースの分類、方言の識別、その他多くのタスクにも使用できる。
論文 参考訳(メタデータ) (2021-05-07T09:52:44Z) - Half-Truth: A Partially Fake Audio Detection Dataset [60.08010668752466]
本稿では半真性音声検出(HAD)のためのデータセットを開発する。
HADデータセットの部分的に偽の音声は、発話中の数単語だけを変更する。
我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。
論文 参考訳(メタデータ) (2021-04-08T08:57:13Z) - Hostility Detection and Covid-19 Fake News Detection in Social Media [1.3499391168620467]
我々は,Hindi BERTとHindi FastTextモデルを用いて,乱用言語検出と特徴抽出を併用したモデルを構築した。
また、英語のツイートでCovid-19に関連する偽ニュースを識別するためのモデルを構築しています。
論文 参考訳(メタデータ) (2021-01-15T03:24:36Z) - Evaluating Deep Learning Approaches for Covid19 Fake News Detection [0.0]
データマイニングの観点から、偽ニュース検出の自動化技術を検討します。
Contraint@AAAI 2021 Covid-19 Fakeニュース検出データセットで異なる教師付きテキスト分類アルゴリズムを評価します。
Covid-19 Fakeニュース検出データセットで98.41%の最高の精度を報告する。
論文 参考訳(メタデータ) (2021-01-11T16:39:03Z) - FakeCovid -- A Multilingual Cross-domain Fact Check News Dataset for
COVID-19 [0.0]
COVID-19に関する5182のファクトチェックされたニュース記事の最初の多言語クロスドメインデータセットを提示する。
我々は、PynterとSnopesから参照を得た後、92の異なるファクトチェックサイトからファクトチェックした記事を収集した。
データセットは105カ国から40言語で提供されている。
論文 参考訳(メタデータ) (2020-06-19T19:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。