論文の概要: SportsSum2.0: Generating High-Quality Sports News from Live Text
Commentary
- arxiv url: http://arxiv.org/abs/2110.05750v1
- Date: Tue, 12 Oct 2021 05:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 13:36:26.354548
- Title: SportsSum2.0: Generating High-Quality Sports News from Live Text
Commentary
- Title(参考訳): sportssum2.0:ライブテキストによる高品質スポーツニュースの生成
- Authors: Jiaan Wang, Zhixu Li, Qiang Yang, Jianfeng Qu, Zhigang Chen, Qingsheng
Liu, Guoping Hu
- Abstract要約: スポーツゲームの要約は、ライブテキストコメンタリーからニュース記事を生成することを目的としている。
最近の研究であるSportsSumは、大規模なベンチマークデータセットを構築するだけでなく、2段階のフレームワークも提案している。
本稿では,新しいベンチマークデータセットであるSportsSum2.0と,修正された要約フレームワークについて報告する。
- 参考スコア(独自算出の注目度): 18.52461327269355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sports game summarization aims to generate news articles from live text
commentaries. A recent state-of-the-art work, SportsSum, not only constructs a
large benchmark dataset, but also proposes a two-step framework. Despite its
great contributions, the work has three main drawbacks: 1) the noise existed in
SportsSum dataset degrades the summarization performance; 2) the neglect of
lexical overlap between news and commentaries results in low-quality
pseudo-labeling algorithm; 3) the usage of directly concatenating rewritten
sentences to form news limits its practicability. In this paper, we publish a
new benchmark dataset SportsSum2.0, together with a modified summarization
framework. In particular, to obtain a clean dataset, we employ crowd workers to
manually clean the original dataset. Moreover, the degree of lexical overlap is
incorporated into the generation of pseudo labels. Further, we introduce a
reranker-enhanced summarizer to take into account the fluency and
expressiveness of the summarized news. Extensive experiments show that our
model outperforms the state-of-the-art baseline.
- Abstract(参考訳): スポーツゲームの要約は、ライブテキストコメンタリーからニュース記事を生成することを目的としている。
最近の最新の研究であるsportssumは、大規模なベンチマークデータセットを構築するだけでなく、2段階のフレームワークも提案している。
その大きな貢献にもかかわらず、その作品には3つの大きな欠点がある。
1)スポーツサムデータセットに存在するノイズは、要約性能を劣化させる。
2) ニュースとコメントの語彙重なりの無視は,低品質の擬似ラベルアルゴリズムをもたらす。
3)書き直し文を直接結合してニュースを形成することは,その実践性を制限している。
本稿では,新しいベンチマークデータセットsportssum2.0を,修正された要約フレームワークと共に公開する。
特に、クリーンなデータセットを得るために、群衆労働者を使ってオリジナルのデータセットを手動できれいにします。
さらに、語彙重なりの度合いを擬似ラベルの生成に組み込む。
さらに,要約されたニュースの流布度と表現性を考慮するために,再帰的要約器を導入する。
我々のモデルは最先端のベースラインよりも優れています。
関連論文リスト
- Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - Template-based Abstractive Microblog Opinion Summarisation [26.777997436856076]
我々は,マイクロブログ意見要約(MOS)の課題を紹介し,ゴールド標準意見要約3100のデータセットを共有する。
このデータセットには、2年間にわたるつぶやきの要約が含まれており、他のパブリックなTwitter要約データセットよりも多くのトピックをカバーしている。
論文 参考訳(メタデータ) (2022-08-08T12:16:01Z) - NEWTS: A Corpus for News Topic-Focused Summarization [9.872518517174498]
本稿では,CNN/Dailymailデータセットに基づく最初の話題要約コーパスを提案する。
提案手法の有効性を検証し,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-05-31T10:01:38Z) - Knowledge Enhanced Sports Game Summarization [14.389241106925438]
2つの特徴を持つ新しいデータセットであるK-SportsSumを紹介する。
K-SportsSumは大規模なゲームから大量のデータを収集する。
K-SportsSumはさらに、523のスポーツチームと14,724人のスポーツ選手の情報を含む大規模な知識コーパスを提供している。
論文 参考訳(メタデータ) (2021-11-24T15:06:20Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Generating Representative Headlines for News Stories [31.67864779497127]
同じ出来事をニュースに報告している記事のグループ化は、読者がニュースを消費するのを助ける一般的な方法である。
各ストーリーの代表的見出しを効率的かつ効果的に生成することは、依然として困難な研究課題である。
我々は,人間のアノテーションを使わずに大規模世代モデルを訓練するための遠隔監視手法を開発した。
論文 参考訳(メタデータ) (2020-01-26T02:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。