論文の概要: Two Huge Title and Keyword Generation Corpora of Research Articles
- arxiv url: http://arxiv.org/abs/2002.04689v1
- Date: Tue, 11 Feb 2020 21:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 02:31:35.777475
- Title: Two Huge Title and Keyword Generation Corpora of Research Articles
- Title(参考訳): 研究論文の2大タイトルとキーワード生成コーパス
- Authors: Erion \c{C}ano, Ond\v{r}ej Bojar
- Abstract要約: 本稿では,テキスト要約(OAGSX)とキーワード生成(OAGKX)の2つの巨大なデータセットを紹介する。
データは、研究プロファイルと出版物のネットワークであるOpen Academic Graphから取得された。
より具体的な分野から研究論文のサブセットを導出するために、この2つの集合にトピックモデリングを適用したい。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in sequence-to-sequence learning with neural networks
have considerably improved the quality of automatically generated text
summaries and document keywords, stipulating the need for even bigger training
corpora. Metadata of research articles are usually easy to find online and can
be used to perform research on various tasks. In this paper, we introduce two
huge datasets for text summarization (OAGSX) and keyword generation (OAGKX)
research, containing 34 million and 23 million records, respectively. The data
were retrieved from the Open Academic Graph which is a network of research
profiles and publications. We carefully processed each record and also tried
several extractive and abstractive methods of both tasks to create performance
baselines for other researchers. We further illustrate the performance of those
methods previewing their outputs. In the near future, we would like to apply
topic modeling on the two sets to derive subsets of research articles from more
specific disciplines.
- Abstract(参考訳): ニューラルネットワークを用いたシーケンス・ツー・シーケンス学習の最近の進歩は、自動生成されたテキスト要約と文書キーワードの品質を大幅に向上させ、さらに大きなトレーニングコーパスの必要性を規定している。
研究論文のメタデータは通常オンラインで見つけやすく、様々なタスクの研究に使うことができる。
本稿では,テキスト要約(OAGSX)とキーワード生成(OAGKX)の2つの巨大なデータセットを紹介する。
データは、研究プロファイルと出版物のネットワークであるOpen Academic Graphから取得された。
我々は各レコードを慎重に処理し、他の研究者のパフォーマンスベースラインを作成するために、両方のタスクの抽出的、抽象的手法を試した。
さらに、出力をプレビューするこれらのメソッドのパフォーマンスについて説明する。
近い将来、より特定の分野から研究論文のサブセットを導出するために、2つのセットにトピックモデリングを適用したい。
関連論文リスト
- Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文 参考訳(メタデータ) (2024-05-07T09:05:20Z) - Named Entity Recognition Based Automatic Generation of Research
Highlights [3.9410617513331863]
我々は,研究論文の異なるセクションを入力として,研究ハイライトを自動的に生成することを目指している。
入力に名前付きエンティティ認識を用いることで、生成したハイライトの品質が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-02-25T16:33:03Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - A Comprehensive Attempt to Research Statement Generation [39.8491923428562]
本稿では,研究成果を要約した研究声明生成タスクを提案する。
我々は、62の研究ステートメントと対応する1,203の出版物からなるrsgデータセットを構築した。
提案手法は,コンテンツカバレッジとコヒーレンスを向上して,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2021-04-25T03:57:00Z) - Sequential Sentence Classification in Research Papers using Cross-Domain
Multi-Task Learning [4.2443814047515716]
本研究では,一様深層学習アーキテクチャとマルチタスク学習を提案する。
当社のアプローチは,3つのベンチマークデータセット上でのテクニックの状況よりも優れています。
論文 参考訳(メタデータ) (2021-02-11T13:54:10Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文 参考訳(メタデータ) (2020-11-03T04:04:21Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。