論文の概要: SKT5SciSumm -- Revisiting Extractive-Generative Approach for Multi-Document Scientific Summarization
- arxiv url: http://arxiv.org/abs/2402.17311v2
- Date: Fri, 27 Sep 2024 05:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 04:32:42.289814
- Title: SKT5SciSumm -- Revisiting Extractive-Generative Approach for Multi-Document Scientific Summarization
- Title(参考訳): SKT5SciSumm -- マルチドキュメント科学要約のための抽出生成アプローチの再検討
- Authors: Huy Quoc To, Ming Liu, Guangyan Huang, Hung-Nghiep Tran, Andr'e Greiner-Petter, Felix Beierle, Akiko Aizawa,
- Abstract要約: マルチドキュメント科学要約(MDSS)のためのハイブリッドフレームワークSKT5SciSummを提案する。
我々は,Citation-Informed Transformer (SPECTER) を用いたScientific Paper Embeddingsの文変換バージョンを活用し,文のエンコードと表現を行う。
我々は、抽出文を用いて抽象要約を生成するために、T5モデルのファミリを用いる。
- 参考スコア(独自算出の注目度): 24.051692189473723
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Summarization for scientific text has shown significant benefits both for the research community and human society. Given the fact that the nature of scientific text is distinctive and the input of the multi-document summarization task is substantially long, the task requires sufficient embedding generation and text truncation without losing important information. To tackle these issues, in this paper, we propose SKT5SciSumm - a hybrid framework for multi-document scientific summarization (MDSS). We leverage the Sentence-Transformer version of Scientific Paper Embeddings using Citation-Informed Transformers (SPECTER) to encode and represent textual sentences, allowing for efficient extractive summarization using k-means clustering. We employ the T5 family of models to generate abstractive summaries using extracted sentences. SKT5SciSumm achieves state-of-the-art performance on the Multi-XScience dataset. Through extensive experiments and evaluation, we showcase the benefits of our model by using less complicated models to achieve remarkable results, thereby highlighting its potential in advancing the field of multi-document summarization for scientific text.
- Abstract(参考訳): 科学的テキストの要約は、研究コミュニティと人間社会の両方にとって大きなメリットを示している。
科学的テキストの性質が独特であり、多文書要約タスクの入力がかなり長いことを考えると、重要な情報を失うことなく十分な埋め込み生成とテキストトランケーションが必要である。
本稿では,多文書科学要約(MDSS)のためのハイブリッドフレームワークであるSKT5SciSummを提案する。
我々は、Citation-Informed Transformer (SPECTER) を用いたScientific Paper Embeddingsの文変換バージョンを利用してテキスト文のエンコードと表現を行い、k-meansクラスタリングによる効率的な抽出要約を可能にする。
我々は、抽出文を用いて抽象要約を生成するために、T5モデルのファミリを用いる。
SKT5SciSummはMulti-XScienceデータセット上で最先端のパフォーマンスを達成する。
より広範な実験と評価を通じて、より複雑なモデルを用いて目覚ましい結果を得ることにより、科学的テキストの多文書要約の分野を前進させる可能性を明らかにする。
関連論文リスト
- Synthesizing Scientific Summaries: An Extractive and Abstractive Approach [0.5904095466127044]
論文要約のためのハイブリッド手法を提案する。
抽出段階では教師なし学習に基づく2つのモデルとトランスフォーマー言語モデルを用いる。
ハイパーパラメータの特定の組み合わせを用いることで、自動要約システムが人間によって書かれた要約の抽象性を超えることが可能であることが判明した。
論文 参考訳(メタデータ) (2024-07-29T08:21:42Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - Fusing Multimodal Signals on Hyper-complex Space for Extreme Abstractive
Text Summarization (TL;DR) of Scientific Contents [26.32569293387399]
我々は,複数の入力モダリティを活用することで,超抽象的テキスト要約(TL;DR生成)の新たな課題に対処する。
mTLDRデータセットには、さまざまな学術会議の手続きから収集された合計4,182のインスタンスが含まれている。
本稿では, デュアルフューズハイパーコンプレックストランスを用いたエンコーダデコーダモデルであるmTLDRgenを提案する。
論文 参考訳(メタデータ) (2023-06-24T13:51:42Z) - Keyword Extraction from Short Texts with~a~Text-To-Text Transfer
Transformer [0.0]
本稿では,ポーランド語におけるテキスト・テキスト・トランスフォーマ言語モデル(T5)の,短文文節からの内在的・外在的キーワード抽出作業との関連性について検討する。
plT5kw, extremeText, TermoPL, KeyBERT という4つの異なる手法で得られた結果を比較し, plT5kw モデルは, 頻繁かつ疎に表現されたキーワードに対して, 特に有望な結果をもたらすと結論付けた。
論文 参考訳(メタデータ) (2022-09-28T11:31:43Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文 参考訳(メタデータ) (2020-11-03T04:04:21Z) - Enhancing Extractive Text Summarization with Topic-Aware Graph Neural
Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。
本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。
実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T09:30:04Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。