論文の概要: Analyzing the Impact of Fake News on the Anticipated Outcome of the 2024
Election Ahead of Time
- arxiv url: http://arxiv.org/abs/2312.03750v2
- Date: Sat, 6 Jan 2024 17:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:12:57.595204
- Title: Analyzing the Impact of Fake News on the Anticipated Outcome of the 2024
Election Ahead of Time
- Title(参考訳): フェイクニュースが2024年の選挙前予想結果に与える影響の分析
- Authors: Shaina Raza, Mizanur Rahman, Shardul Ghuge
- Abstract要約: フェイクニュースに関する認識と研究の高まりにもかかわらず、北米の政治演説の中で人種的スラリーや偏見を特にターゲットとするデータセットは、依然として大きな必要性がある。
本研究では、これらの誤情報の重要な側面を照らす包括的データセットを紹介する。
- 参考スコア(独自算出の注目度): 7.1970442944315245
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite increasing awareness and research around fake news, there is still a
significant need for datasets that specifically target racial slurs and biases
within North American political speeches. This is particulary important in the
context of upcoming North American elections. This study introduces a
comprehensive dataset that illuminates these critical aspects of
misinformation. To develop this fake news dataset, we scraped and built a
corpus of 40,000 news articles about political discourses in North America. A
portion of this dataset (4000) was then carefully annotated, using a blend of
advanced language models and human verification methods. We have made both
these datasets openly available to the research community and have conducted
benchmarking on the annotated data to demonstrate its utility. We release the
best-performing language model along with data. We encourage researchers and
developers to make use of this dataset and contribute to this ongoing
initiative.
- Abstract(参考訳): フェイクニュースに関する認識と研究の高まりにもかかわらず、北米の政治演説の中で人種的スラリーや偏見を特にターゲットとするデータセットは依然として大きな必要性がある。
これは今後の北米選挙の文脈において特に重要である。
本研究では,これらの誤情報の重要側面を照らす包括的データセットを提案する。
このフェイクニュースデータセットを開発するために、私たちは北米の政治談話に関する4万件のニュース記事のコーパスを作成しました。
このデータセットの一部(4000)は、高度な言語モデルと人間の検証方法を組み合わせて慎重に注釈付けされた。
これら2つのデータセットを研究コミュニティに公開し,注釈付きデータのベンチマークを実施し,その有用性を実証した。
データとともに最高のパフォーマンスの言語モデルをリリースします。
研究者や開発者は、このデータセットを利用して、進行中のイニシアチブに貢献することを推奨しています。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - EUvsDisinfo: A Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles [4.895830603263421]
この研究は、EUvsDisinfoという、プロクレムリンアウトレットから派生した偽情報の多言語データセットを紹介している。
EUvsDisinfoプロジェクトのリーダーである専門家によって書かれたデバンク記事から直接引用されている。
我々のデータセットは、記事の総数と異なる言語に関して、これまでで最大のリソースです。
論文 参考訳(メタデータ) (2024-06-18T13:43:22Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - SEPSIS: I Can Catch Your Lies -- A New Paradigm for Deception Detection [9.20397189600732]
本研究は, 心理学のレンズを通して, 騙しの問題を探究するものである。
そこで本研究では,NLP技術を利用した偽造検出のための新しいフレームワークを提案する。
我々は、微調整言語モデルのデータレスマージを利用した、新しいマルチタスク学習パイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-01T02:13:25Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Identifying Informational Sources in News Articles [109.70475599552523]
我々は、ニュース執筆に使用される情報ソースの、最大かつ最も広範囲にアノテートされたデータセットを構築した。
本稿では,ニュース記事中のソースの構成性を研究するための新しいタスクであるソース予測を導入する。
論文 参考訳(メタデータ) (2023-05-24T08:56:35Z) - Mitigation of Diachronic Bias in Fake News Detection Dataset [3.2800968305157205]
フェイクニュースデータセットのほとんどは、特定の期間に依存する。
このようなデータセットでトレーニングされた検出モデルは、政治的変化や社会的変化によって生じる新しい偽ニュースを検出するのに困難である。
ウィキデータを用いたマスキング手法を提案し、人物名の影響を緩和し、偽ニュース検出モデルを堅牢にしているかどうかを検証する。
論文 参考訳(メタデータ) (2021-08-28T08:25:29Z) - An open access NLP dataset for Arabic dialects : Data collection,
labeling, and model construction [0.8312466807725921]
いくつかのアラビア方言でソーシャルデータの内容のオープンデータセットを提示する。
このデータはTwitterのソーシャルネットワークから収集され、5つの国語で+50K twitsで構成されています。
このデータをオープンアクセスデータとして公開し,イノベーションを奨励し,アラビア語方言やソーシャルメディアのnlp分野の著作を奨励する。
論文 参考訳(メタデータ) (2021-02-07T01:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。