論文の概要: Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles
- arxiv url: http://arxiv.org/abs/2011.08072v1
- Date: Tue, 3 Nov 2020 04:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 04:29:03.030996
- Title: Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles
- Title(参考訳): 科学・ニュース記事のトピック中心非教師なしマルチドキュメント要約
- Authors: Amanuel Alambo, Cori Lohstroh, Erik Madaus, Swati Padhee, Brandy
Foster, Tanvi Banerjee, Krishnaprasad Thirunarayan, Michael Raymer
- Abstract要約: 本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
- 参考スコア(独自算出の注目度): 3.0504782036247438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in natural language processing have enabled automation of a
wide range of tasks, including machine translation, named entity recognition,
and sentiment analysis. Automated summarization of documents, or groups of
documents, however, has remained elusive, with many efforts limited to
extraction of keywords, key phrases, or key sentences. Accurate abstractive
summarization has yet to be achieved due to the inherent difficulty of the
problem, and limited availability of training data. In this paper, we propose a
topic-centric unsupervised multi-document summarization framework to generate
extractive and abstractive summaries for groups of scientific articles across
20 Fields of Study (FoS) in Microsoft Academic Graph (MAG) and news articles
from DUC-2004 Task 2. The proposed algorithm generates an abstractive summary
by developing salient language unit selection and text generation techniques.
Our approach matches the state-of-the-art when evaluated on automated
extractive evaluation metrics and performs better for abstractive summarization
on five human evaluation metrics (entailment, coherence, conciseness,
readability, and grammar). We achieve a kappa score of 0.68 between two
co-author linguists who evaluated our results. We plan to publicly share
MAG-20, a human-validated gold standard dataset of topic-clustered research
articles and their summaries to promote research in abstractive summarization.
- Abstract(参考訳): 最近の自然言語処理の進歩により、機械翻訳、名前付きエンティティ認識、感情分析など、幅広いタスクの自動化が可能になった。
しかし、文書の自動要約や文書群は、キーワード、キーワード、キーフレーズ、キー文の抽出に限られているため、いまだ解明されていない。
問題の本質的な難易度とトレーニングデータの可用性の制限のため、正確な抽象要約はまだ達成されていない。
本稿では,microsoft academic graph (mag) とduc-2004 task 2 のニュース記事を対象に,20分野の学術論文 (fos) に対して,抽出的および抽象的な要約文を生成するためのトピック中心型非教師なしマルチドキュメント要約フレームワークを提案する。
提案手法は, 高度言語単位選択とテキスト生成技術を用いて要約要約を生成する。
提案手法は,自動抽出評価指標で評価した場合の最先端と一致し,5つの評価指標(補足,コヒーレンス,簡潔さ,可読性,文法)の抽象的要約をよりよく行う。
2人の共著者言語学者のカッパスコアは0.68である。
我々は,抽象的な要約研究を促進するために,話題にまとめられた研究論文とその要約の人為的な金標準データセットであるMAG-20を公開する計画である。
関連論文リスト
- SKT5SciSumm -- Revisiting Extractive-Generative Approach for Multi-Document Scientific Summarization [24.051692189473723]
マルチドキュメント科学要約(MDSS)のためのハイブリッドフレームワークSKT5SciSummを提案する。
我々は,Citation-Informed Transformer (SPECTER) を用いたScientific Paper Embeddingsの文変換バージョンを活用し,文のエンコードと表現を行う。
我々は、抽出文を用いて抽象要約を生成するために、T5モデルのファミリを用いる。
論文 参考訳(メタデータ) (2024-02-27T08:33:31Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Lay Text Summarisation Using Natural Language Processing: A Narrative
Literature Review [1.8899300124593648]
本研究の目的は, テキスト要約の手法を記述し, 比較することである。
私たちは82の記事をスクリーニングし、同じデータセットを使用して2020年から2021年の間に8つの関連論文を公開しました。
ハイブリッドアプローチにおける抽出的および抽象的要約法の組み合わせが最も有効であることが判明した。
論文 参考訳(メタデータ) (2023-03-24T18:30:50Z) - Controllable Abstractive Dialogue Summarization with Sketch Supervision [56.59357883827276]
本モデルは,最大50.79のROUGE-Lスコアを持つ最大対話要約コーパスSAMSumの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-05-28T19:05:36Z) - Bengali Abstractive News Summarization(BANS): A Neural Attention
Approach [0.8793721044482612]
本稿では,エンコーダ・デコーダに着目したSeq2seqベースのLong Short-Term Memory(LSTM)ネットワークモデルを提案する。
提案システムでは,単語の長い列を人文や人文で生成する,局所的な注意に基づくモデルを構築している。
また,Bangla.bdnews24.com1から収集した19k以上の記事とそれに対応する人文要約のデータセットも作成した。
論文 参考訳(メタデータ) (2020-12-03T08:17:31Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction [1.0681288493631977]
本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。
GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。
キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
論文 参考訳(メタデータ) (2020-05-19T20:24:02Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z) - Interpretable Multi-Headed Attention for Abstractive Summarization at
Controllable Lengths [14.762731718325002]
MLS(Multi-level Summarizer)は、テキスト文書の要約を制御可能な長さで構築するための教師付き手法である。
MLSはMETEORスコアで14.70%の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2020-02-18T19:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。