論文の概要: ACLSum: A New Dataset for Aspect-based Summarization of Scientific
Publications
- arxiv url: http://arxiv.org/abs/2403.05303v1
- Date: Fri, 8 Mar 2024 13:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 19:39:10.158113
- Title: ACLSum: A New Dataset for Aspect-based Summarization of Scientific
Publications
- Title(参考訳): ACLSum:科学論文の要約のための新しいデータセット
- Authors: Sotaro Takeshita, Tommaso Green, Ines Reinig, Kai Eckert, Simone Paolo
Ponzetto
- Abstract要約: ACLSumは、ドメインの専門家によって慎重に作成され、評価される新しい要約データセットである。
以前のデータセットとは対照的に、ACLSumは科学論文のマルチアスペクト要約を容易にする。
- 参考スコア(独自算出の注目度): 10.529898520273063
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Extensive efforts in the past have been directed toward the development of
summarization datasets. However, a predominant number of these resources have
been (semi)-automatically generated, typically through web data crawling,
resulting in subpar resources for training and evaluating summarization
systems, a quality compromise that is arguably due to the substantial costs
associated with generating ground-truth summaries, particularly for diverse
languages and specialized domains. To address this issue, we present ACLSum, a
novel summarization dataset carefully crafted and evaluated by domain experts.
In contrast to previous datasets, ACLSum facilitates multi-aspect summarization
of scientific papers, covering challenges, approaches, and outcomes in depth.
Through extensive experiments, we evaluate the quality of our resource and the
performance of models based on pretrained language models and state-of-the-art
large language models (LLMs). Additionally, we explore the effectiveness of
extractive versus abstractive summarization within the scholarly domain on the
basis of automatically discovered aspects. Our results corroborate previous
findings in the general domain and indicate the general superiority of
end-to-end aspect-based summarization. Our data is released at
https://github.com/sobamchan/aclsum.
- Abstract(参考訳): これまでの大規模な取り組みは、要約データセットの開発に向けられてきた。
しかし、これらのリソースの大部分は、主にWebデータクローリングを通じて(半)自動生成され、結果として、要約システムのトレーニングと評価のためのサブパーリソースとなり、特に多様な言語や専門ドメインにおいて、地平の要約を生成するためのかなりのコストによって、品質上の妥協がもたらされた。
この問題に対処するため、ドメインの専門家によって慎重に作成・評価された新しい要約データセットであるACLSumを提案する。
以前のデータセットとは対照的に、aclsumは科学論文のマルチスペクトル要約を促進し、課題、アプローチ、成果を深くカバーする。
実験により,事前訓練された言語モデルと最先端の大規模言語モデル(LLM)に基づいて,資源の品質とモデルの性能を評価する。
さらに, 学術領域における抽出的・抽象的要約の有効性を, 自動的に発見される側面に基づいて検討する。
以上の結果は,一般領域におけるこれまでの知見と一致し,エンドツーエンドのアスペクトベース要約の汎用性を示している。
私たちのデータはhttps://github.com/sobamchan/aclsumで公開しています。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Beyond Finite Data: Towards Data-free Out-of-distribution Generalization
via Extrapolation [19.944946262284123]
ニューラルネットワークが人間のように外挿し、OODの一般化を実現するにはどうすればよいのか?
本稿では,大言語モデル(LLM)にカプセル化されている推論能力と広範な知識を活用して,完全に新しいドメインを合成する領域外挿手法を提案する。
提案手法は, VLCSなどのデータセットにおいて, 教師付き設定を約1~2%超え, 評価可能な性能を示す。
論文 参考訳(メタデータ) (2024-03-08T18:44:23Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - On the State of German (Abstractive) Text Summarization [3.1776833268555134]
ドイツの抽象的テキスト要約の景観を評価する。
業界において,抽象的なテキスト要約のための実用的なソリューションがいまだに欠落している理由を考察する。
論文 参考訳(メタデータ) (2023-01-17T18:59:20Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Unsupervised Opinion Summarization with Content Planning [58.5308638148329]
要約モデルにコンテンツプランニングを明示的に組み込むことで、より高い品質のアウトプットが得られることを示す。
また、より自然な合成データセットを作成し、実世界の文書と要約のペアに似ている。
当社のアプローチは,情報的,一貫性,流動的な要約を生成する上で,競争モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T18:41:58Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。