論文の概要: OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources
- arxiv url: http://arxiv.org/abs/2405.01930v1
- Date: Fri, 3 May 2024 08:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 13:25:40.813942
- Title: OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources
- Title(参考訳): OARelatedWork: オープンアクセスソースからのフルテキストを備えた関連作業セクションの大規模データセット
- Authors: Martin Docekal, Martin Fajcik, Pavel Smrz,
- Abstract要約: 本稿では,OARelatedWorkについて紹介する。OARelatedWorkは,関連作業生成のための,最初の大規模マルチドキュメント要約データセットである。
94の450の論文と5の824の689のユニークな参照論文を含んでいる。
本研究は,抽象文の代わりに全内容を用いた場合,ROUGE-2スコアにおいて,抽出要約の上限が217%増加することを示す。
- 参考スコア(独自算出の注目度): 3.371205304404334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces OARelatedWork, the first large-scale multi-document summarization dataset for related work generation containing whole related work sections and full-texts of cited papers. The dataset includes 94 450 papers and 5 824 689 unique referenced papers. It was designed for the task of automatically generating related work to shift the field toward generating entire related work sections from all available content instead of generating parts of related work sections from abstracts only, which is the current mainstream in this field for abstractive approaches. We show that the estimated upper bound for extractive summarization increases by 217% in the ROUGE-2 score, when using full content instead of abstracts. Furthermore, we show the benefits of full content data on naive, oracle, traditional, and transformer-based baselines. Long outputs, such as related work sections, pose challenges for automatic evaluation metrics like BERTScore due to their limited input length. We tackle this issue by proposing and evaluating a meta-metric using BERTScore. Despite operating on smaller blocks, we show this meta-metric correlates with human judgment, comparably to the original BERTScore.
- Abstract(参考訳): 本稿では,OARelatedWorkについて紹介する。OARelatedWorkは,全作業項目と引用論文の全文を含む関連作業生成のための,最初の大規模マルチドキュメント要約データセットである。
データセットには94の450の論文と5の824の689のユニークな参照論文が含まれている。
抽象的アプローチにおいて現在主流となっている抽象的な部分のみから、関連する作業部分の一部を生成する代わりに、すべての利用可能なコンテンツから、関連する作業部分全体を生成するために、フィールドを自動的に生成するタスクを設計した。
本研究は,抽象文の代わりに全内容を用いた場合,ROUGE-2スコアにおいて,抽出要約の上限が217%増加することを示す。
さらに、ナイーブ、オラクル、伝統的、トランスフォーマーベースのベースラインに関する完全なコンテンツデータの利点を示す。
関連する作業セクションなどの長いアウトプットは、BERTScoreのような入力長が制限されているため、自動評価メトリクスの課題を提起する。
BERTScoreを用いたメタメトリックの提案と評価によってこの問題に対処する。
小さいブロックで動作するにもかかわらず、このメタメトリックは、元のBERTScoreと同等に、人間の判断と相関することを示す。
関連論文リスト
- The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Abstractive Summarization of Large Document Collections Using GPT [1.8130068086063336]
本稿では,個々の文書ではなく,文書コレクションにスケールするために設計された抽象的な要約手法を提案する。
提案手法では,トピッククラスタ内のセマンティッククラスタリング,トピッククラスタ内の文書サイズ削減,クラスタの文書のセマンティックチャンク,GPTに基づく要約と結合,各トピックの感情とテキストの可視化を組み合わせて探索データ解析を支援する。
論文 参考訳(メタデータ) (2023-10-09T13:06:21Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Generating a Structured Summary of Numerous Academic Papers: Dataset and
Method [20.90939310713561]
本稿では,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。
我々は,7万件以上の調査論文から対象要約を収集し,その430万件の参考論文の要約を入力文書として活用する。
数十の入力文書から多種多様な内容を整理するために,カテゴリベースアライメント・スパース・トランスフォーマー (CAST) と呼ばれる要約手法を提案する。
論文 参考訳(メタデータ) (2023-02-09T11:42:07Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - iFacetSum: Coreference-based Interactive Faceted Summarization for
Multi-Document Exploration [63.272359227081836]
iFacetSumは、インタラクティブな要約と顔検索を統合している。
微粒なファセットは、クロスドキュメントのコア参照パイプラインに基づいて自動的に生成される。
論文 参考訳(メタデータ) (2021-09-23T20:01:11Z) - AgreeSum: Agreement-Oriented Multi-Document Summarization [3.4743618614284113]
記事の集合が与えられた場合、ゴールはすべての入力記事に共通かつ忠実な情報を表す抽象的な要約を提供することである。
我々は、AgreeSumのデータセットを作成し、データセット内のクラスタのサブセットについて、記事の要約関係に関するアノテーションを提供します。
論文 参考訳(メタデータ) (2021-06-04T06:17:49Z) - Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文 参考訳(メタデータ) (2020-11-03T04:04:21Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。