論文の概要: SPICED: News Similarity Detection Dataset with Multiple Topics and
Complexity Levels
- arxiv url: http://arxiv.org/abs/2309.13080v1
- Date: Thu, 21 Sep 2023 10:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 22:24:16.005090
- Title: SPICED: News Similarity Detection Dataset with Multiple Topics and
Complexity Levels
- Title(参考訳): SPICED:複数のトピックと複雑度を持つニュース類似度検出データセット
- Authors: Elena Shushkevich, Long Mai, Manuel V. Loureiro, Steven Derby, Tri
Kurniawan Wijaya
- Abstract要約: 犯罪と法、文化とエンターテイメント、災害と事故、経済とビジネス、政治と紛争、科学技術、スポーツの7つのトピックを含む、同様のニュースのデータセットSPICEDを提案する。
本稿では,ニュース類似度検出タスクに特化して設計されたデータセットの作成に使用される,ニュースペア生成のための4つのアプローチを提案する。
- 参考スコア(独自算出の注目度): 14.073585972409756
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Nowadays, the use of intelligent systems to detect redundant information in
news articles has become especially prevalent with the proliferation of news
media outlets in order to enhance user experience. However, the heterogeneous
nature of news can lead to spurious findings in these systems: Simple
heuristics such as whether a pair of news are both about politics can provide
strong but deceptive downstream performance. Segmenting news similarity
datasets into topics improves the training of these models by forcing them to
learn how to distinguish salient characteristics under more narrow domains.
However, this requires the existence of topic-specific datasets, which are
currently lacking. In this article, we propose a new dataset of similar news,
SPICED, which includes seven topics: Crime & Law, Culture & Entertainment,
Disasters & Accidents, Economy & Business, Politics & Conflicts, Science &
Technology, and Sports. Futhermore, we present four distinct approaches for
generating news pairs, which are used in the creation of datasets specifically
designed for news similarity detection task. We benchmarked the created
datasets using MinHash, BERT, SBERT, and SimCSE models.
- Abstract(参考訳): 近年,ニュース記事の冗長な情報を検出するインテリジェントシステムの利用が,ユーザエクスペリエンスを高めるため,ニュースメディアの普及に大きく寄与している。
一対のニュースが政治に関するものであるかどうかのような単純なヒューリスティックは、強いが欺きやすい下流のパフォーマンスを提供する。
ニュース類似性データセットをトピックに分割することで、より狭いドメイン下でのサルエント特性の識別方法を学ぶことによって、これらのモデルのトレーニングが向上する。
しかし、これは現在欠落しているトピック固有のデータセットの存在を必要とする。
本稿では,犯罪と法,文化と娯楽,災害と事故,経済とビジネス,政治と紛争,科学技術,スポーツという7つのトピックを含む,類似のニュースの新しいデータセットであるspicedを提案する。
さらに,ニュース類似度検出タスクに特化して設計されたデータセットの作成に使用される,ニュースペア生成のための4つのアプローチを提案する。
MinHash、BERT、SBERT、SimCSEモデルを使って生成されたデータセットをベンチマークしました。
関連論文リスト
- A Multilingual Similarity Dataset for News Article Frame [14.977682986280998]
16,687の新しいラベル付きペアを用いた大規模ラベル付きニュース記事データセットの拡張版を導入する。
本手法は,従来のニュースフレーム分析研究において,フレームクラスを手動で識別する作業を自由化する。
全体としては10言語にまたがって26,555のラベル付きニュース記事ペアで利用可能な、最も広範な言語間ニュース記事類似性データセットを紹介します。
論文 参考訳(メタデータ) (2024-05-22T01:01:04Z) - From Nuisance to News Sense: Augmenting the News with Cross-Document
Evidence and Context [25.870137795858522]
本稿では,複数のニュース記事からの情報を中心的な話題に集め統合するための,新しいセンスメイキングツールと読書インタフェースであるNEWSSENSEを紹介する。
NEWSSENSEは、異なるソースからの関連記事にリンクすることで、ユーザの選択を集中的に根拠づけた記事を強化する。
我々のパイロット研究は、NEWSSENSEがユーザーが重要な情報を識別し、ニュース記事の信頼性を確認し、異なる視点を探索するのに役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-10-06T21:15:11Z) - Prompt-and-Align: Prompt-Based Social Alignment for Few-Shot Fake News
Detection [50.07850264495737]
プロンプト・アンド・アライン(Prompt-and-Align、P&A)は、数発のフェイクニュース検出のための新しいプロンプトベースのパラダイムである。
我々はP&Aが、数発のフェイクニュース検出性能をかなりのマージンで新たな最先端に設定していることを示す。
論文 参考訳(メタデータ) (2023-09-28T13:19:43Z) - Towards Corpus-Scale Discovery of Selection Biases in News Coverage:
Comparing What Sources Say About Entities as a Start [65.28355014154549]
本稿では,大規模ニュースコーパスにおけるニュースコンテンツから直接メディア選択バイアスのパターンを発見するために,スケーラブルなNLPシステムを構築する上での課題について検討する。
我々は,世界519のニュースソースから180万件のニュース記事のコーパスであるNELA-2020のケーススタディを通じて,フレームワークの能力を示す。
論文 参考訳(メタデータ) (2023-04-06T23:36:45Z) - No Place to Hide: Dual Deep Interaction Channel Network for Fake News
Detection based on Data Augmentation [16.40196904371682]
本稿では,意味,感情,データ強化の観点から,偽ニュース検出のための新しいフレームワークを提案する。
セマンティックと感情の2つのディープインタラクションチャネルネットワークは、より包括的できめ細かなニュース表現を得るために設計されている。
実験の結果,提案手法は最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-31T13:33:53Z) - Nothing Stands Alone: Relational Fake News Detection with Hypergraph
Neural Networks [49.29141811578359]
本稿では,ニュース間のグループ間相互作用を表現するためにハイパーグラフを活用することを提案する。
提案手法は,ラベル付きニュースデータの小さなサブセットであっても,優れた性能を示し,高い性能を維持する。
論文 参考訳(メタデータ) (2022-12-24T00:19:32Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - Fake News Quick Detection on Dynamic Heterogeneous Information Networks [3.599616699656401]
偽ニュース検出のための新しい動的不均一グラフニューラルネットワーク(DHGNN)を提案する。
我々はまず、ニュース記事の内容と著者プロファイルのセマンティック表現を得るために、BERTと微調整BERTを実装した。
そして、文脈情報と関係を反映した異質なニュース著者グラフを構築する。
論文 参考訳(メタデータ) (2022-05-14T11:23:25Z) - Adversarial Active Learning based Heterogeneous Graph Neural Network for
Fake News Detection [18.847254074201953]
新規な偽ニュース検出フレームワークであるAdversarial Active Learning-based Heterogeneous Graph Neural Network(AA-HGNN)を提案する。
AA-HGNNは、特にラベル付きデータのあいまいさに直面している場合、学習性能を高めるためにアクティブな学習フレームワークを利用する。
2つの実世界のフェイクニュースデータセットによる実験により、我々のモデルはテキストベースのモデルや他のグラフベースのモデルより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-27T05:05:25Z) - Machine Learning Explanations to Prevent Overtrust in Fake News
Detection [64.46876057393703]
本研究では、ニュースレビュープラットフォームに組み込んだ説明可能なAIアシスタントが、フェイクニュースの拡散と戦う効果について検討する。
我々は、ニュースレビューと共有インターフェースを設計し、ニュース記事のデータセットを作成し、4つの解釈可能なフェイクニュース検出アルゴリズムを訓練する。
説明可能なAIシステムについてより深く理解するために、説明プロセスにおけるユーザエンゲージメント、メンタルモデル、信頼、パフォーマンス対策の相互作用について議論する。
論文 参考訳(メタデータ) (2020-07-24T05:42:29Z) - A Deep Learning Approach for Automatic Detection of Fake News [47.00462375817434]
複数のドメインのオンラインニュースコンテンツにおいて、偽ニュース検出問題を解決するためのディープラーニングに基づく2つのモデルを提案する。
我々は、最近リリースされたFakeNews AMTとCelebrityという2つのデータセットを用いて、フェイクニュース検出のための手法を評価した。
論文 参考訳(メタデータ) (2020-05-11T09:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。