論文の概要: POLygraph: Polish Fake News Dataset
- arxiv url: http://arxiv.org/abs/2407.01393v1
- Date: Mon, 1 Jul 2024 15:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:00:48.339339
- Title: POLygraph: Polish Fake News Dataset
- Title(参考訳): POLygraph: ポーランドのフェイクニュースデータセット
- Authors: Daniel Dzienisiewicz, Filip Graliński, Piotr Jabłoński, Marek Kubis, Paweł Skórzewski, Piotr Wierzchoń,
- Abstract要約: 本稿では,ポーランドにおける偽ニュース検出のためのユニークなリソースであるPOLygraphデータセットを提案する。
データセットは、11,360対のニュース記事(URLで特定)と対応するラベルを持つ「フェイク・オア・ノット」データセットと、5,082のニュース記事(URLで特定)とコメントするツイートを含む「フェイク・テア・セイ」データセットの2つの部分で構成されている。
このプロジェクトはまた、高度な機械学習技術を使ってデータを分析し、コンテンツの信頼性を判断するソフトウェアツールも開発した。
- 参考スコア(独自算出の注目度): 0.37698262166557467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the POLygraph dataset, a unique resource for fake news detection in Polish. The dataset, created by an interdisciplinary team, is composed of two parts: the "fake-or-not" dataset with 11,360 pairs of news articles (identified by their URLs) and corresponding labels, and the "fake-they-say" dataset with 5,082 news articles (identified by their URLs) and tweets commenting on them. Unlike existing datasets, POLygraph encompasses a variety of approaches from source literature, providing a comprehensive resource for fake news detection. The data was collected through manual annotation by expert and non-expert annotators. The project also developed a software tool that uses advanced machine learning techniques to analyze the data and determine content authenticity. The tool and dataset are expected to benefit various entities, from public sector institutions to publishers and fact-checking organizations. Further dataset exploration will foster fake news detection and potentially stimulate the implementation of similar models in other languages. The paper focuses on the creation and composition of the dataset, so it does not include a detailed evaluation of the software tool for content authenticity analysis, which is planned at a later stage of the project.
- Abstract(参考訳): 本稿では,ポーランドにおける偽ニュース検出のためのユニークなリソースであるPOLygraphデータセットを提案する。
学際チームによって作成されたデータセットは、11,360対のニュース記事(URLで識別される)とそれに対応するラベルを持つ「フェイク・オア・ノット」データセットと、5,082のニュース記事(URLで識別される)とツイートをコメントする「フェイク・テア・セイ」データセットの2つの部分で構成されている。
既存のデータセットとは異なり、POLygraphはソース文献からのさまざまなアプローチを包含し、フェイクニュース検出のための包括的なリソースを提供する。
データは専門家や非専門家のアノテーションによって手作業で収集された。
このプロジェクトはまた、高度な機械学習技術を使用してデータを分析し、コンテンツの信頼性を決定するソフトウェアツールも開発した。
ツールとデータセットは、公共セクター機関から出版社、ファクトチェック組織に至るまで、さまざまな組織に恩恵をもたらすことが期待されている。
さらなるデータセット探索により、偽ニュースの検出が促進され、他の言語での類似モデルの実装が促進される可能性がある。
本論文は,データセットの作成と構成に重点を置いているため,プロジェクトの後半に計画されている,コンテンツ信頼性分析のためのソフトウェアツールの詳細な評価は含まない。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Author Unknown: Evaluating Performance of Author Extraction Libraries on Global Online News Articles [41.97931444618385]
オンラインニュース記事の著者の言語間データセットを手作業で作成する。
既存の5つのソフトウェアパッケージと1つのカスタマイズされたモデルの性能を評価するために使用します。
Go-readabilityとTrafilaturaは著者抽出の最も一貫性のあるソリューションであるが、すべてのパッケージが言語間で非常に可変な結果を生成する。
論文 参考訳(メタデータ) (2024-10-13T20:19:15Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - FineFake: A Knowledge-Enriched Dataset for Fine-Grained Multi-Domain Fake News Detection [54.37159298632628]
FineFakeは、フェイクニュース検出のためのマルチドメイン知識強化ベンチマークである。
FineFakeは6つのセマンティックトピックと8つのプラットフォームにまたがる16,909のデータサンプルを含んでいる。
FineFakeプロジェクト全体がオープンソースリポジトリとして公開されている。
論文 参考訳(メタデータ) (2024-03-30T14:39:09Z) - FaKnow: A Unified Library for Fake News Detection [11.119667583594483]
FaKnowは統合的で総合的なフェイクニュース検出アルゴリズムライブラリである。
モデルトレーニングと評価プロセスの全スペクトルをカバーする。
視覚化やロギングなど,一連の補助機能やツールを備えている。
論文 参考訳(メタデータ) (2024-01-27T13:29:17Z) - Analysing State-Backed Propaganda Websites: a New Dataset and Linguistic
Study [6.011001795749255]
本稿では,国家支援型偽情報共有サイトであるReliable recent News (rn.world) と WarOnFakes (waronfakes.com) について分析する。
コンテンツ取得手法を記述し、結果の多言語データセット上で、クロスサイト非教師なしトピッククラスタリングを行う。
14,053項目の新たなデータセットを公開し、各言語バージョンに注釈を付け、リンクや画像などのメタデータを追加します。
論文 参考訳(メタデータ) (2023-10-21T15:00:27Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - Towards A Reliable Ground-Truth For Biased Language Detection [3.2202224129197745]
バイアスを検出する既存の方法は、主に機械学習モデルをトレーニングするための注釈付きデータに依存している。
データ収集の選択肢を評価し、2つの人気のあるクラウドソーシングプラットフォームから得られたラベルを比較した。
より詳細なアノテータトレーニングによってデータ品質が向上し、既存のバイアス検出システムの性能が向上する。
論文 参考訳(メタデータ) (2021-12-14T14:13:05Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z) - BanFakeNews: A Dataset for Detecting Fake News in Bangla [1.4170999534105675]
自動フェイクニュース検知システムの構築に使用できる50Kニュースの注釈付きデータセットを提案する。
我々は,Bangla偽ニュースを識別するためのNLP技術の現状を示すベンチマークシステムを開発した。
論文 参考訳(メタデータ) (2020-04-19T07:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。