論文の概要: Topic Segmentation of Research Article Collections
- arxiv url: http://arxiv.org/abs/2205.11249v1
- Date: Wed, 18 May 2022 15:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 20:23:29.943635
- Title: Topic Segmentation of Research Article Collections
- Title(参考訳): 研究論文集のトピックセグメンテーション
- Authors: Erion \c{C}ano and Benjamin Roth
- Abstract要約: 紙データ収集のトピックセグメンテーションを行い、約700万枚の紙データ記録のマルチトピックデータセットを生成した。
データ記録から抽出したトピックの分類を構築し、その分類から対応するトピックで各ドキュメントに注釈を付ける。
この新たに提案されたデータセットは、様々な分野の文書の異種コレクションとして、あるいは単一の研究トピックの同種コレクションの集合として、2つのモードで使用できる。
- 参考スコア(独自算出の注目度): 4.0810783261728565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collections of research article data harvested from the web have become
common recently since they are important resources for experimenting on tasks
such as named entity recognition, text summarization, or keyword generation. In
fact, certain types of experiments require collections that are both large and
topically structured, with records assigned to separate research disciplines.
Unfortunately, the current collections of publicly available research articles
are either small or heterogeneous and unstructured. In this work, we perform
topic segmentation of a paper data collection that we crawled and produce a
multitopic dataset of roughly seven million paper data records. We construct a
taxonomy of topics extracted from the data records and then annotate each
document with its corresponding topic from that taxonomy. As a result, it is
possible to use this newly proposed dataset in two modalities: as a
heterogeneous collection of documents from various disciplines or as a set of
homogeneous collections, each from a single research topic.
- Abstract(参考訳): 名前付きエンティティ認識やテキスト要約,キーワード生成といったタスクを実験するための重要なリソースであるため,Webから収集した研究論文の収集が近年一般的になっている。
実際、ある種の実験は、大きくてトポロジ的に構造化されたコレクションを必要とし、記録は別々の研究分野に割り当てられている。
残念ながら、現在公開されている研究論文のコレクションは、小さく、不均一で、構造化されていない。
本研究では,約700万の論文データレコードをクロールし,マルチトピックデータセットを作成する,論文データ収集のトピックセグメンテーションを行う。
データレコードから抽出されたトピックの分類を構築し、その分類から対応するトピックを各ドキュメントにアノテートする。
結果として、この新たに提案されたデータセットを、様々な分野の文書の異種コレクションとして、あるいは、一つの研究トピックの同種コレクションとして、2つのモードで使用することができる。
関連論文リスト
- Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - Generating a Structured Summary of Numerous Academic Papers: Dataset and
Method [20.90939310713561]
本稿では,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。
我々は,7万件以上の調査論文から対象要約を収集し,その430万件の参考論文の要約を入力文書として活用する。
数十の入力文書から多種多様な内容を整理するために,カテゴリベースアライメント・スパース・トランスフォーマー (CAST) と呼ばれる要約手法を提案する。
論文 参考訳(メタデータ) (2023-02-09T11:42:07Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Topic Taxonomy Expansion via Hierarchy-Aware Topic Phrase Generation [58.3921103230647]
TopicExpanというトピック分類拡張のための新しいフレームワークを提案する。
TopicExpanは、新しいトピックに属するトピック関連用語を直接生成する。
2つの実世界のテキストコーパスの実験結果から、TopicExpanは出力の質という点で他のベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-18T22:38:49Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - CSFCube -- A Test Collection of Computer Science Research Articles for
Faceted Query by Example [43.01717754418893]
例によるフェーステッドクエリのタスクを紹介します。
ユーザは、入力クエリドキュメントに加えて、より細かいアスペクトを指定することもできる。
我々は,クエリ科学論文に類似した科学的論文を検索できるモデルを構想する。
論文 参考訳(メタデータ) (2021-03-24T01:02:12Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。