論文の概要: A Novel Method for News Article Event-Based Embedding
- arxiv url: http://arxiv.org/abs/2405.13071v1
- Date: Mon, 20 May 2024 20:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 04:22:11.946737
- Title: A Novel Method for News Article Event-Based Embedding
- Title(参考訳): ニュース記事イベントベース埋め込みの新しい手法
- Authors: Koren Ishlach, Itzhak Ben-David, Michael Fire, Lior Rokach,
- Abstract要約: 本稿では,記事に記載されているエンティティやテーマに着目し,ニュース埋め込み生成を最適化する,新しい軽量な手法を提案する。
実験の結果,提案手法は,すべてのタスクやデータセットに対して,PR(Precision-Recall)AUCを大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 8.183446952097528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embedding news articles is a crucial tool for multiple fields, such as media bias detection, identifying fake news, and news recommendations. However, existing news embedding methods are not optimized for capturing the latent context of news events. In many cases, news embedding methods rely on full-textual information and neglect the importance of time-relevant embedding generation. Here, we aim to address these shortcomings by presenting a novel lightweight method that optimizes news embedding generation by focusing on the entities and themes mentioned in the articles and their historical connections to specific events. We suggest a method composed of three stages. First, we process and extract the events, entities, and themes for the given news articles. Second, we generate periodic time embeddings for themes and entities by training timely separated GloVe models on current and historical data. Lastly, we concatenate the news embeddings generated by two distinct approaches: Smooth Inverse Frequency (SIF) for article-level vectors and Siamese Neural Networks for embeddings with nuanced event-related information. To test and evaluate our method, we leveraged over 850,000 news articles and 1,000,000 events from the GDELT project. For validation purposes, we conducted a comparative analysis of different news embedding generation methods, applying them twice to a shared event detection task - first on articles published within the same day and subsequently on those published within the same month. Our experiments show that our method significantly improves the Precision-Recall (PR) AUC across all tasks and datasets. Specifically, we observed an average PR AUC improvement of 2.15% and 2.57% compared to SIF, as well as 2.57% and 2.43% compared to the semi-supervised approach for daily and monthly shared event detection tasks, respectively.
- Abstract(参考訳): ニュース記事の埋め込みは、メディアバイアスの検出、偽ニュースの特定、ニュースレコメンデーションなど、複数の分野にとって重要なツールである。
しかし、既存のニュース埋め込み手法は、ニュースイベントの潜在コンテキストをキャプチャするために最適化されていない。
多くの場合、ニュース埋め込み手法は全文情報に依存し、時間関連埋め込み生成の重要性を無視する。
そこで本稿では,記事に言及されているエンティティやテーマと,特定のイベントへの歴史的関連性に注目して,ニュース埋め込み生成を最適化する,新たな軽量な手法を提案する。
3段階からなる手法を提案する。
まず、与えられたニュース記事のイベント、エンティティ、テーマを処理し、抽出する。
第2に、現在および歴史的データに基づいて、時間的に分離されたGloVeモデルをトレーニングすることで、テーマやエンティティの周期的な時間埋め込みを生成する。
最後に、記事レベルのベクトルに対するSIF(Smooth Inverse Frequency)と、イベント関連情報による埋め込みのためのSamese Neural Networksの2つの異なるアプローチによって生成されたニュース埋め込みを結合する。
我々はGDELTプロジェクトから,85万件以上のニュース記事と1000,000件のイベントを収集し,評価を行った。
検証のために、我々は異なるニュース埋め込み生成手法の比較分析を行い、共有イベント検出タスクに2回適用した。
提案手法は,すべてのタスクやデータセットに対して,精度・リコール(PR)AUCを大幅に改善することを示す。
具体的には,SIFと比較して平均的PR AUC改善率は2.15%,2.57%,日毎および月毎の共有イベント検出タスクに対する半監督的アプローチに比べて2.57%,2.43%であった。
関連論文リスト
- SCStory: Self-supervised and Continual Online Story Discovery [53.72745249384159]
SCStoryは、素早く公開されたニュース記事ストリームを人間のアノテーションなしでリアルタイムで消化するのに役立つ。
SCStoryは、ニュース記事ストリームのストーリー指向適応モデリングという新しいアイデアを取り入れて、自己指導的かつ継続的な学習を取り入れている。
論文 参考訳(メタデータ) (2023-11-27T04:50:01Z) - TieFake: Title-Text Similarity and Emotion-Aware Fake News Detection [15.386007761649251]
本稿では,マルチモーダルな文脈情報と著者の感情を共同でモデル化し,テキストの類似性と感情認識型フェイクニュース検出(TieFake)手法を提案する。
具体的には、BERT と ResNeSt を用いて、テキストや画像の表現を学習し、出版者感情抽出器を用いて、ニュースコンテンツにおける著者の主観的感情をキャプチャする。
論文 参考訳(メタデータ) (2023-04-19T04:47:36Z) - Unsupervised Story Discovery from Continuous News Streams via Scalable
Thematic Embedding [37.62597275581973]
関連ニュース記事のあるストーリーをリアルタイムで発見することは、高価な人間のアノテーションなしで巨大なニュースストリームを消化するのに役立ちます。
記事や物語を動的に表現するために,既訓練の文エンコーダを用いた新しいテーマ埋め込みを提案する。
実ニュースデータセットによる徹底的な評価は、USTORYがベースラインよりも高いストーリー発見性能を達成することを示す。
論文 参考訳(メタデータ) (2023-04-08T20:41:15Z) - Towards Corpus-Scale Discovery of Selection Biases in News Coverage:
Comparing What Sources Say About Entities as a Start [65.28355014154549]
本稿では,大規模ニュースコーパスにおけるニュースコンテンツから直接メディア選択バイアスのパターンを発見するために,スケーラブルなNLPシステムを構築する上での課題について検討する。
我々は,世界519のニュースソースから180万件のニュース記事のコーパスであるNELA-2020のケーススタディを通じて,フレームワークの能力を示す。
論文 参考訳(メタデータ) (2023-04-06T23:36:45Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Neural News Recommendation with Event Extraction [0.0]
オンラインニュースレコメンデーションの重要な課題は、ユーザーが興味のある記事を見つけるのを助けることだ。
従来のニュースレコメンデーション手法では、ニュースやユーザ表現をエンコードするには不十分な単一ニュース情報を使用することが多い。
本稿では,これらの欠点を克服するためのイベント抽出に基づくニュースレコメンデーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-09T11:56:38Z) - Joint Multimedia Event Extraction from Video and Article [51.159034070824056]
本稿では,ビデオ記事やテキスト記事からイベントを共同抽出する手法を提案する。
まず,自己教師型マルチモーダルイベントコアモデルを提案する。
第2に、ビデオとテキストの両方から構造化イベント情報を共同で抽出する、最初のマルチモーダルトランスフォーマーを導入する。
論文 参考訳(メタデータ) (2021-09-27T03:22:12Z) - Embracing Domain Differences in Fake News: Cross-domain Fake News
Detection using Multi-modal Data [18.66426327152407]
異なるドメインの偽ニュースを検出するために、ニュースレコードにドメイン固有の知識とクロスドメインの知識を共同で保存する新しいフレームワークを提案する。
提案する偽ニュースモデルと選択的アノテーションアプローチの統合が,クロスドメインニュースデータセットの最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2021-02-11T23:31:14Z) - Cross-media Structured Common Space for Multimedia Event Extraction [82.36301617438268]
マルチメディア文書からイベントとその引数を抽出することを目的とした,MultiMedia Event extract (M2E2) というタスクを導入する。
本稿では,意味情報の構造化表現を共通埋め込み空間にエンコードする新しい手法,Weakly Aligned Structured Embedding (WASE)を提案する。
画像を利用することで、従来のテキストのみの手法よりも21.4%多くのイベント参照を抽出する。
論文 参考訳(メタデータ) (2020-05-05T20:21:53Z) - Generating Representative Headlines for News Stories [31.67864779497127]
同じ出来事をニュースに報告している記事のグループ化は、読者がニュースを消費するのを助ける一般的な方法である。
各ストーリーの代表的見出しを効率的かつ効果的に生成することは、依然として困難な研究課題である。
我々は,人間のアノテーションを使わずに大規模世代モデルを訓練するための遠隔監視手法を開発した。
論文 参考訳(メタデータ) (2020-01-26T02:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。