論文の概要: Analyzing the Impact of Fake News on the Anticipated Outcome of the 2024
Election Ahead of Time
- arxiv url: http://arxiv.org/abs/2312.03750v2
- Date: Sat, 6 Jan 2024 17:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:12:57.595204
- Title: Analyzing the Impact of Fake News on the Anticipated Outcome of the 2024
Election Ahead of Time
- Title(参考訳): フェイクニュースが2024年の選挙前予想結果に与える影響の分析
- Authors: Shaina Raza, Mizanur Rahman, Shardul Ghuge
- Abstract要約: フェイクニュースに関する認識と研究の高まりにもかかわらず、北米の政治演説の中で人種的スラリーや偏見を特にターゲットとするデータセットは、依然として大きな必要性がある。
本研究では、これらの誤情報の重要な側面を照らす包括的データセットを紹介する。
- 参考スコア(独自算出の注目度): 7.1970442944315245
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite increasing awareness and research around fake news, there is still a
significant need for datasets that specifically target racial slurs and biases
within North American political speeches. This is particulary important in the
context of upcoming North American elections. This study introduces a
comprehensive dataset that illuminates these critical aspects of
misinformation. To develop this fake news dataset, we scraped and built a
corpus of 40,000 news articles about political discourses in North America. A
portion of this dataset (4000) was then carefully annotated, using a blend of
advanced language models and human verification methods. We have made both
these datasets openly available to the research community and have conducted
benchmarking on the annotated data to demonstrate its utility. We release the
best-performing language model along with data. We encourage researchers and
developers to make use of this dataset and contribute to this ongoing
initiative.
- Abstract(参考訳): フェイクニュースに関する認識と研究の高まりにもかかわらず、北米の政治演説の中で人種的スラリーや偏見を特にターゲットとするデータセットは依然として大きな必要性がある。
これは今後の北米選挙の文脈において特に重要である。
本研究では,これらの誤情報の重要側面を照らす包括的データセットを提案する。
このフェイクニュースデータセットを開発するために、私たちは北米の政治談話に関する4万件のニュース記事のコーパスを作成しました。
このデータセットの一部(4000)は、高度な言語モデルと人間の検証方法を組み合わせて慎重に注釈付けされた。
これら2つのデータセットを研究コミュニティに公開し,注釈付きデータのベンチマークを実施し,その有用性を実証した。
データとともに最高のパフォーマンスの言語モデルをリリースします。
研究者や開発者は、このデータセットを利用して、進行中のイニシアチブに貢献することを推奨しています。
関連論文リスト
- A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - SEPSIS: I Can Catch Your Lies -- A New Paradigm for Deception Detection [9.20397189600732]
本研究は, 心理学のレンズを通して, 騙しの問題を探究するものである。
そこで本研究では,NLP技術を利用した偽造検出のための新しいフレームワークを提案する。
我々は、微調整言語モデルのデータレスマージを利用した、新しいマルチタスク学習パイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-01T02:13:25Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Uncovering Political Hate Speech During Indian Election Campaign: A New
Low-Resource Dataset and Baselines [3.3228144010758593]
IEHateデータセットには、2021年11月1日から2022年3月9日までのインド議会選挙に関連する11,457件のヒンディー語ツイートが含まれている。
機械学習、ディープラーニング、トランスフォーマーベースのアルゴリズムを用いてデータセットをベンチマークする。
特に、アルゴリズムよりも人間評価のスコアが比較的高いことは、効果的なヘイトスピーチのモデレーションに人間と自動化の両方のアプローチを活用することの重要性を強調している。
論文 参考訳(メタデータ) (2023-06-26T15:17:54Z) - Identifying Informational Sources in News Articles [109.70475599552523]
我々は、ニュース執筆に使用される情報ソースの、最大かつ最も広範囲にアノテートされたデータセットを構築した。
本稿では,ニュース記事中のソースの構成性を研究するための新しいタスクであるソース予測を導入する。
論文 参考訳(メタデータ) (2023-05-24T08:56:35Z) - Mitigation of Diachronic Bias in Fake News Detection Dataset [3.2800968305157205]
フェイクニュースデータセットのほとんどは、特定の期間に依存する。
このようなデータセットでトレーニングされた検出モデルは、政治的変化や社会的変化によって生じる新しい偽ニュースを検出するのに困難である。
ウィキデータを用いたマスキング手法を提案し、人物名の影響を緩和し、偽ニュース検出モデルを堅牢にしているかどうかを検証する。
論文 参考訳(メタデータ) (2021-08-28T08:25:29Z) - Retiring Adult: New Datasets for Fair Machine Learning [47.27417042497261]
UCIアダルトは、多くのアルゴリズム的公正な介入の開発と比較の基礎として機能している。
UCIアダルトデータのスーパーセットを米国国勢調査資料から再構築し、その外部妥当性を制限するUCIアダルトデータセットの慣用性を明らかにする。
私たちの主な貢献は、公正な機械学習の研究のために既存のデータエコシステムを拡張する、一連の新しいデータセットです。
論文 参考訳(メタデータ) (2021-08-10T19:19:41Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - An open access NLP dataset for Arabic dialects : Data collection,
labeling, and model construction [0.8312466807725921]
いくつかのアラビア方言でソーシャルデータの内容のオープンデータセットを提示する。
このデータはTwitterのソーシャルネットワークから収集され、5つの国語で+50K twitsで構成されています。
このデータをオープンアクセスデータとして公開し,イノベーションを奨励し,アラビア語方言やソーシャルメディアのnlp分野の著作を奨励する。
論文 参考訳(メタデータ) (2021-02-07T01:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。