論文の概要: Open4Business(O4B): An Open Access Dataset for Summarizing Business
Documents
- arxiv url: http://arxiv.org/abs/2011.07636v3
- Date: Sun, 29 Nov 2020 21:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 06:56:16.070375
- Title: Open4Business(O4B): An Open Access Dataset for Summarizing Business
Documents
- Title(参考訳): open4business(o4b):ビジネスドキュメントを要約するオープンアクセスデータセット
- Authors: Amanpreet Singh, Niranjan Balasubramanian
- Abstract要約: 我々は17,458のオープンアクセスビジネス記事とその参照要約のデータセットであるOpen4Business(O4B)を紹介した。
このデータセットは、高度に抽象的で簡潔な要約を必要とする、ビジネスドメインの要約に関する新たな課題を導入している。
既存のモデルを評価した結果,O4Bでトレーニングしたモデルと,より大規模なオープンアクセスデータセットの7倍のモデルが,要約において同等のパフォーマンスを実現することがわかった。
- 参考スコア(独自算出の注目度): 31.01036927165447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge in fine-tuning deep learning models for automatic
summarization is the need for large domain specific datasets. One of the
barriers to curating such data from resources like online publications is
navigating the license regulations applicable to their re-use, especially for
commercial purposes. As a result, despite the availability of several business
journals there are no large scale datasets for summarizing business documents.
In this work, we introduce Open4Business(O4B),a dataset of 17,458 open access
business articles and their reference summaries. The dataset introduces a new
challenge for summarization in the business domain, requiring highly
abstractive and more concise summaries as compared to other existing datasets.
Additionally, we evaluate existing models on it and consequently show that
models trained on O4B and a 7x larger non-open access dataset achieve
comparable performance on summarization. We release the dataset, along with the
code which can be leveraged to similarly gather data for multiple domains.
- Abstract(参考訳): 自動要約のためのディープラーニングモデルの微調整における大きな課題は、大規模なドメイン固有データセットの必要性である。
オンライン出版などのリソースからこのようなデータを収集する障壁の1つは、特に商業目的のために、再使用に適用されるライセンス規制をナビゲートすることである。
その結果、いくつかのビジネスジャーナルが利用可能であるにもかかわらず、ビジネス文書を要約するための大規模なデータセットは存在しない。
本稿では,オープンアクセスビジネス記事17,458件とその参照要約のデータセットであるOpen4Business(O4B)を紹介する。
このデータセットは、ビジネスドメインの要約に新たな課題を導入し、既存のデータセットと比較して、高度に抽象的で簡潔な要約を必要とする。
さらに,既存のモデルを評価することにより,o4b と 7 倍大きな非オープンアクセスデータセット でトレーニングされたモデルが,要約において同等の性能が得られることを示す。
同様に複数のドメインのデータ収集に活用できるコードとともに、データセットをリリースしています。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - OpenAsp: A Benchmark for Multi-document Open Aspect-based Summarization [19.079053035229695]
アスペクトベースの要約のベンチマークであるOpenAspを紹介する。
OpenAspで実現された現実的なオープン・アスペクト設定は、現在の最先端の要約モデルに挑戦していることを示す。
論文 参考訳(メタデータ) (2023-12-07T17:06:20Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - Revisiting Table Detection Datasets for Visually Rich Documents [17.846536373106268]
この研究では、高品質なアノテーションでいくつかのオープンデータセットを再検討し、ノイズを特定し、クリーン化し、これらのデータセットのアノテーション定義を、Open-Tablesと呼ばれるより大きなデータセットとマージするように調整する。
情報通信技術(ICT)コモディティのPDFファイルを用いた新しいICT-TDデータセットを提案する。
実験の結果,データソースが異なるにも関わらず,既存のオープンデータセット間の領域差は小さいことがわかった。
論文 参考訳(メタデータ) (2023-05-04T01:08:15Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - QBSUM: a Large-Scale Query-Based Document Summarization Dataset from
Real-world Applications [20.507631900617817]
提案するQBSUMは,中国語クエリベースの文書要約処理のための49,000以上のデータサンプルからなる高品質な大規模データセットである。
また,タスクに対する教師なしおよび教師なしの複数のソリューションを提案し,オフライン実験とオンラインA/Bテストの両方を通して,高速な推論と優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-27T07:30:04Z) - AQuaMuSe: Automatically Generating Datasets for Query-Based
Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。
5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文 参考訳(メタデータ) (2020-10-23T22:38:18Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。