論文の概要: Real-time News Story Identification
- arxiv url: http://arxiv.org/abs/2508.08272v1
- Date: Wed, 30 Jul 2025 16:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.155804
- Title: Real-time News Story Identification
- Title(参考訳): リアルタイムニュースストーリー識別
- Authors: Tadej Škvorc, Nikola Ivačič, Sebastjan Hribar, Marko Robnik-Šikonja,
- Abstract要約: 本稿では,ニュース監視システムにおけるリアルタイムなストーリー識別を実現するためのアプローチを提案する。
ストーリー識別は、記事がカバーしている特定のストーリーに各ニュース記事を割り当てることを目的としている。
テキスト表現手法、クラスタリングアルゴリズム、オンライントピックモデリング手法を組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To improve the reading experience, many news sites organize news into topical collections, called stories. In this work, we present an approach for implementing real-time story identification for a news monitoring system that automatically collects news articles as they appear online and processes them in various ways. Story identification aims to assign each news article to a specific story that the article is covering. The process is similar to text clustering and topic modeling, but requires that articles be grouped based on particular events, places, and people, rather than general text similarity (as in clustering) or general (predefined) topics (as in topic modeling). We present an approach to story identification that is capable of functioning in real time, assigning articles to stories as they are published online. In the proposed approach, we combine text representation techniques, clustering algorithms, and online topic modeling methods. We combine various text representation methods to extract specific events and named entities necessary for story identification, showing that a mixture of online topic-modeling approaches such as BERTopic, DBStream, and TextClust can be adapted for story discovery. We evaluate our approach on a news dataset from Slovene media covering a period of 1 month. We show that our real-time approach produces sensible results as judged by human evaluators.
- Abstract(参考訳): 読書体験を改善するため、多くのニュースサイトはニュースをストーリーと呼ばれる話題のコレクションにまとめている。
本研究では,オンラインに表示されるニュース記事を自動的に収集し,様々な方法で処理するニュース監視システムに対して,リアルタイムなストーリー識別を実現するアプローチを提案する。
ストーリー識別は、記事がカバーしている特定のストーリーに各ニュース記事を割り当てることを目的としている。
このプロセスはテキストクラスタリングやトピックモデリングに似ているが、記事は一般的なテキストの類似性(クラスタリングなど)や一般的なトピック(トピックモデリングなど)ではなく、特定のイベント、場所、人々に基づいてグループ化する必要がある。
本稿では、リアルタイムで機能し、オンラインで公開されている記事に記事を割り当てるストーリー識別手法を提案する。
提案手法では,テキスト表現手法,クラスタリングアルゴリズム,オンライントピックモデリング手法を組み合わせる。
本研究では,特定のイベントを抽出するためのテキスト表現手法と,物語の識別に必要なエンティティを組み合わせ,BERTopic,DBStream,TextClustなどのオンライントピックモデリング手法の混合がストーリー発見に適用可能であることを示す。
我々は,スロベニアのメディアから1ヶ月の期間をカバーしたニュースデータセットに対するアプローチを評価した。
我々のリアルタイムアプローチは、人間の評価者によって判断される賢明な結果をもたらすことを示す。
関連論文リスト
- DiscoSum: Discourse-aware News Summarization [79.4884227574627]
本稿では,談話構造を要約プロセスに統合するための新しいアプローチを提案する。
本稿では,ソーシャルメディアプラットフォーム間で,ニュース記事が複数回,異なる方法で要約される新しい要約データセットを提案する。
本研究では、要約構造を記述するための新しいニュース談話スキーマと、構造認識要約にビームサーチ技術を用いる新しいアルゴリズムであるディスコサムを開発する。
論文 参考訳(メタデータ) (2025-06-07T22:00:30Z) - A Novel Method for News Article Event-Based Embedding [8.183446952097528]
本稿では,記事中のエンティティやテーマに着目して,ニュース埋め込み生成を最適化する,新しい軽量な手法を提案する。
我々はGDELTプロジェクトから,85万件以上のニュース記事と1000,000件のイベントを活用し,本手法の検証と評価を行った。
提案手法は,共有イベント検出タスクにおける最先端手法の改善と性能向上の両立を実証した。
論文 参考訳(メタデータ) (2024-05-20T20:55:07Z) - SCStory: Self-supervised and Continual Online Story Discovery [53.72745249384159]
SCStoryは、素早く公開されたニュース記事ストリームを人間のアノテーションなしでリアルタイムで消化するのに役立つ。
SCStoryは、ニュース記事ストリームのストーリー指向適応モデリングという新しいアイデアを取り入れて、自己指導的かつ継続的な学習を取り入れている。
論文 参考訳(メタデータ) (2023-11-27T04:50:01Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Unsupervised Story Discovery from Continuous News Streams via Scalable
Thematic Embedding [37.62597275581973]
関連ニュース記事のあるストーリーをリアルタイムで発見することは、高価な人間のアノテーションなしで巨大なニュースストリームを消化するのに役立ちます。
記事や物語を動的に表現するために,既訓練の文エンコーダを用いた新しいテーマ埋め込みを提案する。
実ニュースデータセットによる徹底的な評価は、USTORYがベースラインよりも高いストーリー発見性能を達成することを示す。
論文 参考訳(メタデータ) (2023-04-08T20:41:15Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - Cue Me In: Content-Inducing Approaches to Interactive Story Generation [74.09575609958743]
本研究では,対話型物語生成の課題に焦点をあてる。
本稿では、この追加情報を効果的に活用するための2つのコンテンツ誘導手法を提案する。
自動評価と人的評価の両方による実験結果から,これらの手法がよりトポロジ的な一貫性とパーソナライズされたストーリーを生み出すことが示された。
論文 参考訳(メタデータ) (2020-10-20T00:36:15Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。