論文の概要: Generating Representative Headlines for News Stories
- arxiv url: http://arxiv.org/abs/2001.09386v4
- Date: Mon, 13 Apr 2020 21:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 19:07:10.165371
- Title: Generating Representative Headlines for News Stories
- Title(参考訳): ニュース記事の代表的見出しの作成
- Authors: Xiaotao Gu, Yuning Mao, Jiawei Han, Jialu Liu, Hongkun Yu, You Wu,
Cong Yu, Daniel Finnie, Jiaqi Zhai, Nicholas Zukoski
- Abstract要約: 同じ出来事をニュースに報告している記事のグループ化は、読者がニュースを消費するのを助ける一般的な方法である。
各ストーリーの代表的見出しを効率的かつ効果的に生成することは、依然として困難な研究課題である。
我々は,人間のアノテーションを使わずに大規模世代モデルを訓練するための遠隔監視手法を開発した。
- 参考スコア(独自算出の注目度): 31.67864779497127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Millions of news articles are published online every day, which can be
overwhelming for readers to follow. Grouping articles that are reporting the
same event into news stories is a common way of assisting readers in their news
consumption. However, it remains a challenging research problem to efficiently
and effectively generate a representative headline for each story. Automatic
summarization of a document set has been studied for decades, while few studies
have focused on generating representative headlines for a set of articles.
Unlike summaries, which aim to capture most information with least redundancy,
headlines aim to capture information jointly shared by the story articles in
short length, and exclude information that is too specific to each individual
article. In this work, we study the problem of generating representative
headlines for news stories. We develop a distant supervision approach to train
large-scale generation models without any human annotation. This approach
centers on two technical components. First, we propose a multi-level
pre-training framework that incorporates massive unlabeled corpus with
different quality-vs.-quantity balance at different levels. We show that models
trained within this framework outperform those trained with pure human curated
corpus. Second, we propose a novel self-voting-based article attention layer to
extract salient information shared by multiple articles. We show that models
that incorporate this layer are robust to potential noises in news stories and
outperform existing baselines with or without noises. We can further enhance
our model by incorporating human labels, and we show our distant supervision
approach significantly reduces the demand on labeled data.
- Abstract(参考訳): 何百万ものニュース記事が毎日オンラインで公開されており、読者がフォローするのは圧倒的だ。
同じ出来事をニュースに報告している記事のグループ化は、読者のニュース消費を支援する一般的な方法である。
しかし、各ストーリーの代表的見出しを効率的かつ効果的に生成するのは難しい研究課題である。
文書集合の自動要約は、何十年も研究されてきたが、記事群の代表的見出しの生成に焦点を当てた研究はほとんどない。
最も少ない冗長性で多くの情報を捉えようとする要約とは異なり、見出しはストーリー記事が共同で共有する情報を短時間で捉え、個々の記事に特有すぎる情報を除外することを目的としている。
本研究では,ニュース記事に代表的見出しを生成する問題を考察する。
人間のアノテーションを使わずに大規模世代モデルを訓練するための遠隔監視手法を開発した。
このアプローチは2つの技術コンポーネントに重点を置いています。
まず,大量のラベルなしコーパスと異なる品質vsを組み込んだマルチレベル事前学習フレームワークを提案する。
-異なるレベルでの量的バランス。
このフレームワークでトレーニングされたモデルは、純粋なヒトキュレートされたコーパスでトレーニングされたモデルよりも優れていることを示す。
第2に,複数記事が共有する有能な情報を抽出する,自己投票型記事アテンション層を提案する。
この層を組み込んだモデルは、ニュース記事の潜在的なノイズに対して堅牢であり、ノイズの有無にかかわらず既存のベースラインを上回っていることを示す。
人間のラベルを組み込むことで、モデルをさらに強化することができ、遠隔監視アプローチによってラベル付きデータの需要を大幅に削減できることを示す。
関連論文リスト
- A Novel Method for News Article Event-Based Embedding [8.183446952097528]
本稿では,記事中のエンティティやテーマに着目して,ニュース埋め込み生成を最適化する,新しい軽量な手法を提案する。
我々はGDELTプロジェクトから,85万件以上のニュース記事と1000,000件のイベントを活用し,本手法の検証と評価を行った。
提案手法は,共有イベント検出タスクにおける最先端手法の改善と性能向上の両立を実証した。
論文 参考訳(メタデータ) (2024-05-20T20:55:07Z) - SCStory: Self-supervised and Continual Online Story Discovery [53.72745249384159]
SCStoryは、素早く公開されたニュース記事ストリームを人間のアノテーションなしでリアルタイムで消化するのに役立つ。
SCStoryは、ニュース記事ストリームのストーリー指向適応モデリングという新しいアイデアを取り入れて、自己指導的かつ継続的な学習を取り入れている。
論文 参考訳(メタデータ) (2023-11-27T04:50:01Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Unsupervised Story Discovery from Continuous News Streams via Scalable
Thematic Embedding [37.62597275581973]
関連ニュース記事のあるストーリーをリアルタイムで発見することは、高価な人間のアノテーションなしで巨大なニュースストリームを消化するのに役立ちます。
記事や物語を動的に表現するために,既訓練の文エンコーダを用いた新しいテーマ埋め込みを提案する。
実ニュースデータセットによる徹底的な評価は、USTORYがベースラインよりも高いストーリー発見性能を達成することを示す。
論文 参考訳(メタデータ) (2023-04-08T20:41:15Z) - NEWTS: A Corpus for News Topic-Focused Summarization [9.872518517174498]
本稿では,CNN/Dailymailデータセットに基づく最初の話題要約コーパスを提案する。
提案手法の有効性を検証し,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-05-31T10:01:38Z) - "Don't quote me on that": Finding Mixtures of Sources in News Articles [85.92467549469147]
各ソースのtextitaffiliationとtextitroleに基づいてソースのオントロジーラベリングシステムを構築します。
これらの属性を名前付きソースに推論し、ニュース記事をこれらのソースの混合物として記述する確率モデルを構築します。
論文 参考訳(メタデータ) (2021-04-19T21:57:11Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - VMSMO: Learning to Generate Multimodal Summary for Video-based News
Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。
このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。
本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文 参考訳(メタデータ) (2020-10-12T02:19:16Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z) - Zero-shot topic generation [10.609815608017065]
本稿では,文書タイトル生成にのみ訓練されたモデルを用いてトピックを生成する手法を提案する。
私たちは、そのドキュメントのタイトルを生成するために、ドキュメント内の候補の関連性をキャプチャする機能を活用します。
アウトプットは、文書を記述し、コーパス内でそれを区別するのに最も関係のあるフレーズの重み付けされたコレクションである。
論文 参考訳(メタデータ) (2020-04-29T04:39:28Z) - BaitWatcher: A lightweight web interface for the detection of
incongruent news headlines [27.29585619643952]
BaitWatcherは軽量なWebインターフェースで、ニュース記事の見出しをクリックする前に、読者が不一致の可能性を推定する。
BaiittWatcherは階層的リカレントエンコーダを使用して、ニュース見出しとその関連するボディテキストの複雑なテキスト表現を効率的に学習する。
論文 参考訳(メタデータ) (2020-03-23T23:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。