論文の概要: Text Summarization of Czech News Articles Using Named Entities
- arxiv url: http://arxiv.org/abs/2104.10454v1
- Date: Wed, 21 Apr 2021 10:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 20:27:44.027675
- Title: Text Summarization of Czech News Articles Using Named Entities
- Title(参考訳): 名前付きエンティティを用いたチェコ語ニュース記事のテキスト要約
- Authors: Petr Marek, \v{S}t\v{e}p\'an M\"uller, Jakub Konr\'ad, Petr Lorenc,
Jan Pichl and Jan \v{S}ediv\'y
- Abstract要約: 我々はチェコのニュース記事の要約に名前付きエンティティが与える影響に注目した。
本論文では, 実体と生成されたサマリ間の名前付きエンティティの重なりを計測する新しいメトリック ROUGE_NE を提案する。
要約システムが高いスコアに達することは依然として困難であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The foundation for the research of summarization in the Czech language was
laid by the work of Straka et al. (2018). They published the SumeCzech, a large
Czech news-based summarization dataset, and proposed several baseline
approaches. However, it is clear from the achieved results that there is a
large space for improvement. In our work, we focus on the impact of named
entities on the summarization of Czech news articles. First, we annotate
SumeCzech with named entities. We propose a new metric ROUGE_NE that measures
the overlap of named entities between the true and generated summaries, and we
show that it is still challenging for summarization systems to reach a high
score in it. We propose an extractive summarization approach Named Entity
Density that selects a sentence with the highest ratio between a number of
entities and the length of the sentence as the summary of the article. The
experiments show that the proposed approach reached results close to the solid
baseline in the domain of news articles selecting the first sentence. Moreover,
we demonstrate that the selected sentence reflects the style of reports
concisely identifying to whom, when, where, and what happened. We propose that
such a summary is beneficial in combination with the first sentence of an
article in voice applications presenting news articles. We propose two
abstractive summarization approaches based on Seq2Seq architecture. The first
approach uses the tokens of the article. The second approach has access to the
named entity annotations. The experiments show that both approaches exceed
state-of-the-art results previously reported by Straka et al. (2018), with the
latter achieving slightly better results on SumeCzech's out-of-domain testing
set.
- Abstract(参考訳): チェコ語における要約研究の基礎はストラカらによって築かれた。
(2018).
彼らはチェコのニュースに基づく大規模な要約データセットであるSumeCzechを発表し、いくつかのベースラインアプローチを提案した。
しかし、達成された結果から、改善の余地が大きいことは明らかです。
本研究では,チェコのニュース記事の要約に名前付きエンティティが与える影響に注目した。
まず、名前付きエンティティでSumeCzechを注釈付けします。
本稿では,真サマリーと生成されたサマリーの間の名前付きエンティティの重なりを測定する新しいメトリック rouge_ne を提案する。
記事の要約として,複数のエンティティと文の長さの比率が最も高い文を選択する,名前付きエンティティ密度の抽出的要約手法を提案する。
実験の結果, 提案手法は, 第1文を選択するニュース記事の領域において, ベースラインに近い結果に達した。
さらに,選択した文は,誰が,いつ,どこで,何が起こったかを正確に識別するレポートのスタイルを反映していることを示す。
本稿では,このような要約を,ニュース記事を提示する音声アプリケーションにおいて,記事の最初の文と組み合わせて有益であることを示す。
seq2seqアーキテクチャに基づく2つの抽象要約手法を提案する。
最初のアプローチでは、記事のトークンを使用します。
2つ目のアプローチは、名前付きエンティティアノテーションにアクセスできます。
実験により、どちらの手法も以前にStrakaらによって報告された最先端の結果を超えていることが示された。
(2018)では、SumeCzechのドメイン外テストセットが若干改善された。
関連論文リスト
- Incremental Extractive Opinion Summarization Using Cover Trees [81.59625423421355]
オンラインマーケットプレースでは、ユーザレビューは時間とともに蓄積され、意見要約を定期的に更新する必要がある。
本研究では,漸進的な環境下での抽出的意見要約の課題について検討する。
本稿では,CentroidRankの要約をインクリメンタルな設定で正確に計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-16T02:00:17Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Lay Text Summarisation Using Natural Language Processing: A Narrative
Literature Review [1.8899300124593648]
本研究の目的は, テキスト要約の手法を記述し, 比較することである。
私たちは82の記事をスクリーニングし、同じデータセットを使用して2020年から2021年の間に8つの関連論文を公開しました。
ハイブリッドアプローチにおける抽出的および抽象的要約法の組み合わせが最も有効であることが判明した。
論文 参考訳(メタデータ) (2023-03-24T18:30:50Z) - Salience Allocation as Guidance for Abstractive Summarization [61.31826412150143]
本稿では, サリエンセ・サリエンス・ガイダンス(SEASON, SaliencE Allocation as Guidance for Abstractive SummarizatiON)を用いた新しい要約手法を提案する。
SEASONは、サリエンス予測の割り当てを利用して抽象的な要約を導き、異なる抽象性のある記事に順応する。
論文 参考訳(メタデータ) (2022-10-22T02:13:44Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.34726150561087]
そこで本稿では,これらの手法を用いて呼の要約を生成し,客観的に評価することにより,実験的な比較を行った。
TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
論文 参考訳(メタデータ) (2022-09-06T13:16:02Z) - Reinforcing Semantic-Symmetry for Document Summarization [15.113768658584979]
文書要約は、長い文書を詳細な情報と正確な意味記述を備えた短いバージョンに凝縮する。
本稿では,文書要約のための新しいtextbfreinforcing stextbfemantic-textbfsymmetric Learning textbfmodelを提案する。
CNN/Daily MailとBigPatentの2つの大胆なベンチマークデータセットに対して、一連の実験が行われた。
論文 参考訳(メタデータ) (2021-12-14T17:41:37Z) - A Novel Two-stage Framework for Extracting Opinionated Sentences from
News Articles [24.528177249269582]
本稿では,あるニュース記事から意見文を抽出する新しい2段階の枠組みを提案する。
最初の段階では、ローカル機能を利用してNaive Bayes分類器が各文にスコアを割り当てます。
第2段階では、HITS(Hyperlink-Induced Topic Search)スキーマ内でこの前もって、記事のグローバル構造を利用しています。
論文 参考訳(メタデータ) (2021-01-24T16:24:20Z) - Bengali Abstractive News Summarization(BANS): A Neural Attention
Approach [0.8793721044482612]
本稿では,エンコーダ・デコーダに着目したSeq2seqベースのLong Short-Term Memory(LSTM)ネットワークモデルを提案する。
提案システムでは,単語の長い列を人文や人文で生成する,局所的な注意に基づくモデルを構築している。
また,Bangla.bdnews24.com1から収集した19k以上の記事とそれに対応する人文要約のデータセットも作成した。
論文 参考訳(メタデータ) (2020-12-03T08:17:31Z) - Discrete Optimization for Unsupervised Sentence Summarization with
Word-Level Extraction [31.648764677078837]
自動要約は、その最も重要な情報を保存しながら、文章の短いバージョンを生成する。
我々はこれら2つの側面を言語モデリングと意味的類似度メトリクスからなる教師なし目的関数でモデル化する。
提案手法は,ROUGEスコアによる教師なし文要約のための新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2020-05-04T19:01:55Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。