論文の概要: Unsupervised Story Discovery from Continuous News Streams via Scalable
Thematic Embedding
- arxiv url: http://arxiv.org/abs/2304.04099v3
- Date: Thu, 4 May 2023 04:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 18:41:43.309407
- Title: Unsupervised Story Discovery from Continuous News Streams via Scalable
Thematic Embedding
- Title(参考訳): スケーラブルなテーマ埋め込みによる連続ニュースストリームからの教師なしストーリー発見
- Authors: Susik Yoon, Dongha Lee, Yunyi Zhang, Jiawei Han
- Abstract要約: 関連ニュース記事のあるストーリーをリアルタイムで発見することは、高価な人間のアノテーションなしで巨大なニュースストリームを消化するのに役立ちます。
記事や物語を動的に表現するために,既訓練の文エンコーダを用いた新しいテーマ埋め込みを提案する。
実ニュースデータセットによる徹底的な評価は、USTORYがベースラインよりも高いストーリー発見性能を達成することを示す。
- 参考スコア(独自算出の注目度): 37.62597275581973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised discovery of stories with correlated news articles in real-time
helps people digest massive news streams without expensive human annotations. A
common approach of the existing studies for unsupervised online story discovery
is to represent news articles with symbolic- or graph-based embedding and
incrementally cluster them into stories. Recent large language models are
expected to improve the embedding further, but a straightforward adoption of
the models by indiscriminately encoding all information in articles is
ineffective to deal with text-rich and evolving news streams. In this work, we
propose a novel thematic embedding with an off-the-shelf pretrained sentence
encoder to dynamically represent articles and stories by considering their
shared temporal themes. To realize the idea for unsupervised online story
discovery, a scalable framework USTORY is introduced with two main techniques,
theme- and time-aware dynamic embedding and novelty-aware adaptive clustering,
fueled by lightweight story summaries. A thorough evaluation with real news
data sets demonstrates that USTORY achieves higher story discovery performances
than baselines while being robust and scalable to various streaming settings.
- Abstract(参考訳): 関連ニュース記事のあるストーリーをリアルタイムで発見することは、高価な人間のアノテーションなしで巨大なニュースストリームを消化するのに役立ちます。
教師なしオンラインストーリー発見のための既存の研究の一般的なアプローチは、ニュース記事を象徴的あるいはグラフベースの埋め込みで表現し、ストーリーに漸進的にクラスタ化することである。
最近の大規模言語モデルは、埋め込みをさらに改善することが期待されているが、記事にすべての情報を無差別にエンコードすることで、モデルを直接採用することは、テキストリッチで進化するニュースストリームを扱うには効果がない。
そこで本研究では,テーマの共有を考慮し,記事やストーリーを動的に表現する,既成の事前学習文エンコーダを用いたテーマ埋め込みを提案する。
教師なしのオンラインストーリー発見のアイデアを実現するために,UTORYは,テーマとタイムアウェアの動的埋め込みと,軽量なストーリーサマリーを駆使した新規な適応クラスタリングという,2つの主要な手法で導入された。
実ニュースデータセットによる徹底的な評価は、USTORYがベースラインよりも高いストーリー発見性能を達成し、さまざまなストリーミング設定に対して堅牢でスケーラブルであることを示している。
関連論文リスト
- Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models [79.21968152209193]
ニューエピソード・ベンチマークを導入し、新しいキャラクターで新しいストーリーを生成する際の生成モデルの適応性を評価する。
EpicEvoは,新しいキャラクタをシームレスに統合した単一ストーリーで,拡散に基づくビジュアルストーリー生成モデルをカスタマイズする手法である。
論文 参考訳(メタデータ) (2024-05-20T07:54:03Z) - Improving Sequence-to-Sequence Models for Abstractive Text Summarization Using Meta Heuristic Approaches [0.0]
人間には抽象的な能力がある。
ニューラルネットワークの抽象的テキスト要約にSequence-to-Sequence(seq2seq)モデルを使用することは、流行まで上昇している。
本稿では,抽象的なテキスト要約のためのアーキテクチャとモデルを改良することを目的としている。
論文 参考訳(メタデータ) (2024-03-24T17:39:36Z) - SCStory: Self-supervised and Continual Online Story Discovery [53.72745249384159]
SCStoryは、素早く公開されたニュース記事ストリームを人間のアノテーションなしでリアルタイムで消化するのに役立つ。
SCStoryは、ニュース記事ストリームのストーリー指向適応モデリングという新しいアイデアを取り入れて、自己指導的かつ継続的な学習を取り入れている。
論文 参考訳(メタデータ) (2023-11-27T04:50:01Z) - Conflicts, Villains, Resolutions: Towards models of Narrative Media
Framing [19.589945994234075]
我々は、物語の要素を明示的に捉えたコミュニケーション科学から、広く使われているフレーミングの概念化を再考する。
我々は、複雑なアノテーションタスクをより単純なバイナリー質問に分解する効果的なアノテーションパラダイムを適用します。
教師付きおよび半教師付きアプローチによるフレームの自動マルチラベル予測について検討する。
論文 参考訳(メタデータ) (2023-06-03T08:50:13Z) - Generating Coherent Narratives by Learning Dynamic and Discrete Entity
States with a Contrastive Framework [68.1678127433077]
我々はトランスフォーマーモデルを拡張して,物語生成のためのエンティティ状態更新と文実現を動的に行う。
2つのナラティブデータセットの実験により、我々のモデルは強いベースラインよりも一貫性があり多様なナラティブを生成できることが示された。
論文 参考訳(メタデータ) (2022-08-08T09:02:19Z) - StreamHover: Livestream Transcript Summarization and Annotation [54.41877742041611]
ライブストリームの書き起こしを注釈付けして要約するフレームワークであるStreamHoverを紹介します。
合計500時間以上のビデオに抽出的要約と抽象的要約を併用したベンチマークデータセットは,既存の注釈付きコーパスよりもはるかに大きい。
我々のモデルはより一般化され、強力なベースラインよりも性能が向上することを示す。
論文 参考訳(メタデータ) (2021-09-11T02:19:37Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z) - BaitWatcher: A lightweight web interface for the detection of
incongruent news headlines [27.29585619643952]
BaitWatcherは軽量なWebインターフェースで、ニュース記事の見出しをクリックする前に、読者が不一致の可能性を推定する。
BaiittWatcherは階層的リカレントエンコーダを使用して、ニュース見出しとその関連するボディテキストの複雑なテキスト表現を効率的に学習する。
論文 参考訳(メタデータ) (2020-03-23T23:43:02Z) - Generating Representative Headlines for News Stories [31.67864779497127]
同じ出来事をニュースに報告している記事のグループ化は、読者がニュースを消費するのを助ける一般的な方法である。
各ストーリーの代表的見出しを効率的かつ効果的に生成することは、依然として困難な研究課題である。
我々は,人間のアノテーションを使わずに大規模世代モデルを訓練するための遠隔監視手法を開発した。
論文 参考訳(メタデータ) (2020-01-26T02:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。