論文の概要: Hoaxpedia: A Unified Wikipedia Hoax Articles Dataset
- arxiv url: http://arxiv.org/abs/2405.02175v3
- Date: Fri, 30 Aug 2024 16:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 20:01:42.663045
- Title: Hoaxpedia: A Unified Wikipedia Hoax Articles Dataset
- Title(参考訳): Hoaxpedia:ウィキペディアのHoax記事データセットを統一
- Authors: Hsuvas Borkakoty, Luis Espinosa-Anke,
- Abstract要約: まず、正当性と偽のウィキペディア記事の類似点と相違点を体系的に分析する。
そして、311のホックス記事を集めたHoaxpediaを紹介します。
以上の結果から,ウィキペディアにおける偽コンテンツの検出は,コンテンツだけでは難しいが実現不可能であることが示唆された。
- 参考スコア(独自算出の注目度): 10.756673240445709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hoaxes are a recognised form of disinformation created deliberately, with potential serious implications in the credibility of reference knowledge resources such as Wikipedia. What makes detecting Wikipedia hoaxes hard is that they often are written according to the official style guidelines. In this work, we first provide a systematic analysis of similarities and discrepancies between legitimate and hoax Wikipedia articles, and introduce Hoaxpedia, a collection of 311 hoax articles (from existing literature and official Wikipedia lists), together with semantically similar legitimate articles, which together form a binary text classification dataset aimed at fostering research in automated hoax detection. In this paper, We report results after analyzing several language models, hoax-to-legit ratios, and the amount of text classifiers are exposed to (full article vs the article's definition alone). Our results suggest that detecting deceitful content in Wikipedia based on content alone is hard but feasible, and complement our analysis with a study on the differences in distributions in edit histories, and find that looking at this feature yields better classification results than context.
- Abstract(参考訳): Hoaxesは意図的に作成された偽情報の一種であり、ウィキペディアのような参照知識資源の信頼性に深刻な影響を及ぼす可能性がある。
ウィキペディアの検出が難しいのは、公式のスタイルガイドラインに従ってしばしば書かれることです。
本稿ではまず,正当性と偽のウィキペディア記事の類似点と相違点を体系的に分析し,既存の文献や公式ウィキペディアリストから311個のホックス記事を集めたHoaxpediaを紹介する。
本稿では,複数の言語モデル,Hoax-to-legit比,テキスト分類器の量(記事と記事の定義のみ)を分析した結果について報告する。
以上の結果から,ウィキペディアのコンテンツのみに基づく偽コンテンツの検出は困難だが実現可能であることが示唆され,編集履歴の分布の違いから分析を補完する結果を得た。
関連論文リスト
- Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - The role of online attention in the supply of disinformation in
Wikipedia [0.030458514384586396]
英語ウィキペディアにおける注目の配分と偽記事の生成との関係を計測する。
トラフィックログの分析によると、同日に作成された合法的な記事と比較して、ホアックスは作成前のトラフィックスパイクとより関連がある傾向にある。
論文 参考訳(メタデータ) (2023-02-16T20:44:21Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Tracking Knowledge Propagation Across Wikipedia Languages [1.8447697408534176]
本稿では,ウィキペディアにおける言語間知識伝達のデータセットについて述べる。
データセットは309の言語版と3300万の記事をカバーしている。
言語版のサイズは伝播速度と関連していることがわかった。
論文 参考訳(メタデータ) (2021-03-30T18:36:13Z) - Analyzing Wikidata Transclusion on English Wikipedia [1.5736899098702972]
本研究はウィキデータ・トランスクルージョンの分類とウィキデータ・トランスクルージョンの英訳ウィキペディアにおける分析について述べる。
ウィキデータ・トランスクルージョンはウィキペディアの記事の内容に影響を及ぼすが、前回の統計では61%だったよりもずっと低い率(5%)で起こる。
論文 参考訳(メタデータ) (2020-11-02T14:16:42Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - Entity Extraction from Wikipedia List Pages [2.3605348648054463]
私たちは、DBpediaをバックボーンとして、カテゴリとリストページから大規模な分類を構築します。
遠隔監視により、リストページ内の新しいエンティティの識別のためのトレーニングデータを抽出する。
我々はDBpediaを7.5万の新しい型ステートメントと380万の高精度な新しい事実で拡張する。
論文 参考訳(メタデータ) (2020-03-11T07:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。