論文の概要: SPICED: News Similarity Detection Dataset with Multiple Topics and Complexity Levels
- arxiv url: http://arxiv.org/abs/2309.13080v3
- Date: Fri, 23 Aug 2024 08:58:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 10:28:07.292604
- Title: SPICED: News Similarity Detection Dataset with Multiple Topics and Complexity Levels
- Title(参考訳): SPICED:複数のトピックと複雑度を持つニュース類似度検出データセット
- Authors: Elena Shushkevich, Long Mai, Manuel V. Loureiro, Steven Derby, Tri Kurniawan Wijaya,
- Abstract要約: 本研究では,7つのトピックを含む類似ニュースのデータセットSPICEDを提案する。
我々は,ニュース類似度検出タスクに特化して設計した4種類の複雑さを提示する。
- 参考スコア(独自算出の注目度): 13.117993238869659
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The proliferation of news media outlets has increased the demand for intelligent systems capable of detecting redundant information in news articles in order to enhance user experience. However, the heterogeneous nature of news can lead to spurious findings in these systems: Simple heuristics such as whether a pair of news are both about politics can provide strong but deceptive downstream performance. Segmenting news similarity datasets into topics improves the training of these models by forcing them to learn how to distinguish salient characteristics under more narrow domains. However, this requires the existence of topic-specific datasets, which are currently lacking. In this article, we propose a novel dataset of similar news, SPICED, which includes seven topics: Crime & Law, Culture & Entertainment, Disasters & Accidents, Economy & Business, Politics & Conflicts, Science & Technology, and Sports. Futhermore, we present four different levels of complexity, specifically designed for news similarity detection task. We benchmarked the created datasets using MinHash, BERT, SBERT, and SimCSE models.
- Abstract(参考訳): ニュースメディアの普及により、ユーザー体験を高めるため、ニュース記事の冗長な情報を検知できるインテリジェントシステムへの需要が高まっている。
しかし、ニュースの不均一な性質は、これらのシステムで突発的な発見をもたらす可能性がある。
ニュース類似性データセットをトピックに分割することで、これらのモデルのトレーニングを改善する。
しかし、これは現在欠落しているトピック固有のデータセットの存在を必要とする。
本稿では,犯罪と法,文化とエンターテイメント,災害と事故,経済とビジネス,政治と紛争,科学技術,スポーツの7つのトピックを含む,類似ニュースの新しいデータセットSPICEDを提案する。
さらに,ニュース類似度検出タスクに特化して設計された4種類の複雑さを提示する。
MinHash、BERT、SBERT、SimCSEモデルを使用して、生成されたデータセットをベンチマークしました。
関連論文リスト
- A Multilingual Similarity Dataset for News Article Frame [14.977682986280998]
16,687の新しいラベル付きペアを用いた大規模ラベル付きニュース記事データセットの拡張版を導入する。
本手法は,従来のニュースフレーム分析研究において,フレームクラスを手動で識別する作業を自由化する。
全体としては10言語にまたがって26,555のラベル付きニュース記事ペアで利用可能な、最も広範な言語間ニュース記事類似性データセットを紹介します。
論文 参考訳(メタデータ) (2024-05-22T01:01:04Z) - From Nuisance to News Sense: Augmenting the News with Cross-Document
Evidence and Context [25.870137795858522]
本稿では,複数のニュース記事からの情報を中心的な話題に集め統合するための,新しいセンスメイキングツールと読書インタフェースであるNEWSSENSEを紹介する。
NEWSSENSEは、異なるソースからの関連記事にリンクすることで、ユーザの選択を集中的に根拠づけた記事を強化する。
我々のパイロット研究は、NEWSSENSEがユーザーが重要な情報を識別し、ニュース記事の信頼性を確認し、異なる視点を探索するのに役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-10-06T21:15:11Z) - Prompt-and-Align: Prompt-Based Social Alignment for Few-Shot Fake News
Detection [50.07850264495737]
プロンプト・アンド・アライン(Prompt-and-Align、P&A)は、数発のフェイクニュース検出のための新しいプロンプトベースのパラダイムである。
我々はP&Aが、数発のフェイクニュース検出性能をかなりのマージンで新たな最先端に設定していることを示す。
論文 参考訳(メタデータ) (2023-09-28T13:19:43Z) - Towards Corpus-Scale Discovery of Selection Biases in News Coverage:
Comparing What Sources Say About Entities as a Start [65.28355014154549]
本稿では,大規模ニュースコーパスにおけるニュースコンテンツから直接メディア選択バイアスのパターンを発見するために,スケーラブルなNLPシステムを構築する上での課題について検討する。
我々は,世界519のニュースソースから180万件のニュース記事のコーパスであるNELA-2020のケーススタディを通じて,フレームワークの能力を示す。
論文 参考訳(メタデータ) (2023-04-06T23:36:45Z) - No Place to Hide: Dual Deep Interaction Channel Network for Fake News
Detection based on Data Augmentation [16.40196904371682]
本稿では,意味,感情,データ強化の観点から,偽ニュース検出のための新しいフレームワークを提案する。
セマンティックと感情の2つのディープインタラクションチャネルネットワークは、より包括的できめ細かなニュース表現を得るために設計されている。
実験の結果,提案手法は最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-31T13:33:53Z) - Nothing Stands Alone: Relational Fake News Detection with Hypergraph
Neural Networks [49.29141811578359]
本稿では,ニュース間のグループ間相互作用を表現するためにハイパーグラフを活用することを提案する。
提案手法は,ラベル付きニュースデータの小さなサブセットであっても,優れた性能を示し,高い性能を維持する。
論文 参考訳(メタデータ) (2022-12-24T00:19:32Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - Fake News Quick Detection on Dynamic Heterogeneous Information Networks [3.599616699656401]
偽ニュース検出のための新しい動的不均一グラフニューラルネットワーク(DHGNN)を提案する。
我々はまず、ニュース記事の内容と著者プロファイルのセマンティック表現を得るために、BERTと微調整BERTを実装した。
そして、文脈情報と関係を反映した異質なニュース著者グラフを構築する。
論文 参考訳(メタデータ) (2022-05-14T11:23:25Z) - Adversarial Active Learning based Heterogeneous Graph Neural Network for
Fake News Detection [18.847254074201953]
新規な偽ニュース検出フレームワークであるAdversarial Active Learning-based Heterogeneous Graph Neural Network(AA-HGNN)を提案する。
AA-HGNNは、特にラベル付きデータのあいまいさに直面している場合、学習性能を高めるためにアクティブな学習フレームワークを利用する。
2つの実世界のフェイクニュースデータセットによる実験により、我々のモデルはテキストベースのモデルや他のグラフベースのモデルより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-27T05:05:25Z) - Machine Learning Explanations to Prevent Overtrust in Fake News
Detection [64.46876057393703]
本研究では、ニュースレビュープラットフォームに組み込んだ説明可能なAIアシスタントが、フェイクニュースの拡散と戦う効果について検討する。
我々は、ニュースレビューと共有インターフェースを設計し、ニュース記事のデータセットを作成し、4つの解釈可能なフェイクニュース検出アルゴリズムを訓練する。
説明可能なAIシステムについてより深く理解するために、説明プロセスにおけるユーザエンゲージメント、メンタルモデル、信頼、パフォーマンス対策の相互作用について議論する。
論文 参考訳(メタデータ) (2020-07-24T05:42:29Z) - A Deep Learning Approach for Automatic Detection of Fake News [47.00462375817434]
複数のドメインのオンラインニュースコンテンツにおいて、偽ニュース検出問題を解決するためのディープラーニングに基づく2つのモデルを提案する。
我々は、最近リリースされたFakeNews AMTとCelebrityという2つのデータセットを用いて、フェイクニュース検出のための手法を評価した。
論文 参考訳(メタデータ) (2020-05-11T09:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。