論文の概要: Hoaxpedia: A Unified Wikipedia Hoax Articles Dataset
- arxiv url: http://arxiv.org/abs/2405.02175v1
- Date: Fri, 3 May 2024 15:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 12:26:23.813567
- Title: Hoaxpedia: A Unified Wikipedia Hoax Articles Dataset
- Title(参考訳): Hoaxpedia:ウィキペディアのHoax記事データセットを統一
- Authors: Hsuvas Borkakoty, Luis Espinosa-Anke,
- Abstract要約: Hoaxesは意図的に作成された偽情報として認識されており、ウィキペディアの信頼性に深刻な影響を及ぼす可能性がある。
まず、正当性と偽のウィキペディア記事の類似点と相違点を体系的に分析する。
Hoaxpediaは311のHoax記事とセマンティックに類似したリアル記事のコレクションです。
ウィキペディアの記事が本物か偽かを予測するタスクにおいてバイナリ分類実験の結果を報告し、いくつかの設定と言語モデルについて分析する。
- 参考スコア(独自算出の注目度): 10.756673240445709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hoaxes are a recognised form of disinformation created deliberately, with potential serious implications in the credibility of reference knowledge resources such as Wikipedia. What makes detecting Wikipedia hoaxes hard is that they often are written according to the official style guidelines. In this work, we first provide a systematic analysis of the similarities and discrepancies between legitimate and hoax Wikipedia articles, and introduce Hoaxpedia, a collection of 311 Hoax articles (from existing literature as well as official Wikipedia lists) alongside semantically similar real articles. We report results of binary classification experiments in the task of predicting whether a Wikipedia article is real or hoax, and analyze several settings as well as a range of language models. Our results suggest that detecting deceitful content in Wikipedia based on content alone, despite not having been explored much in the past, is a promising direction.
- Abstract(参考訳): Hoaxesは意図的に作成された偽情報の一種であり、ウィキペディアのような参照知識資源の信頼性に深刻な影響を及ぼす可能性がある。
ウィキペディアの検出が難しいのは、公式のスタイルガイドラインに従ってしばしば書かれることです。
本稿ではまず,正当性と偽のウィキペディア記事の類似点と相違点を体系的に分析し,意味的に類似した実際の記事とともに311のホアックス記事(既存文献および公式ウィキペディアリストから)のコレクションであるHoaxpediaを紹介した。
ウィキペディアの記事が本物か偽かを予測するタスクにおいてバイナリ分類実験の結果を報告し、いくつかの設定や言語モデルについて分析する。
以上の結果から,過去はあまり調査されていないが,ウィキペディアのコンテンツのみに基づく偽コンテンツの検出は有望な方向であることが示唆された。
関連論文リスト
- Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - The role of online attention in the supply of disinformation in
Wikipedia [0.030458514384586396]
英語ウィキペディアにおける注目の配分と偽記事の生成との関係を計測する。
トラフィックログの分析によると、同日に作成された合法的な記事と比較して、ホアックスは作成前のトラフィックスパイクとより関連がある傾向にある。
論文 参考訳(メタデータ) (2023-02-16T20:44:21Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Tracking Knowledge Propagation Across Wikipedia Languages [1.8447697408534176]
本稿では,ウィキペディアにおける言語間知識伝達のデータセットについて述べる。
データセットは309の言語版と3300万の記事をカバーしている。
言語版のサイズは伝播速度と関連していることがわかった。
論文 参考訳(メタデータ) (2021-03-30T18:36:13Z) - Analyzing Wikidata Transclusion on English Wikipedia [1.5736899098702972]
本研究はウィキデータ・トランスクルージョンの分類とウィキデータ・トランスクルージョンの英訳ウィキペディアにおける分析について述べる。
ウィキデータ・トランスクルージョンはウィキペディアの記事の内容に影響を及ぼすが、前回の統計では61%だったよりもずっと低い率(5%)で起こる。
論文 参考訳(メタデータ) (2020-11-02T14:16:42Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - Entity Extraction from Wikipedia List Pages [2.3605348648054463]
私たちは、DBpediaをバックボーンとして、カテゴリとリストページから大規模な分類を構築します。
遠隔監視により、リストページ内の新しいエンティティの識別のためのトレーニングデータを抽出する。
我々はDBpediaを7.5万の新しい型ステートメントと380万の高精度な新しい事実で拡張する。
論文 参考訳(メタデータ) (2020-03-11T07:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。