論文の概要: Generation of Highlights from Research Papers Using Pointer-Generator
Networks and SciBERT Embeddings
- arxiv url: http://arxiv.org/abs/2302.07729v1
- Date: Tue, 14 Feb 2023 12:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 14:40:13.594438
- Title: Generation of Highlights from Research Papers Using Pointer-Generator
Networks and SciBERT Embeddings
- Title(参考訳): ポインタジェネレータネットワークとSciBERT埋め込みを用いた研究論文からのハイライト生成
- Authors: Tohida Rehman, Debarshi Kumar Sanyal, Samiran Chattopadhyay, Plaban
Kumar Bhowmick, Partha Pratim Das
- Abstract要約: 我々は,入力トークンをSciBERT埋め込みにエンコードする入力に,カバレッジ機構を備えたポインタジェネレータネットワークとコンテキスト埋め込み層を用いる。
我々は、ベンチマークデータセットCSPubSumと、自動研究ハイライト生成のための新しい論文の多分野コーパスMixSubでモデルを検証した。
- 参考スコア(独自算出の注目度): 6.063525456640463
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Nowadays many research articles are prefaced with research highlights to
summarize the main findings of the paper. Highlights not only help researchers
precisely and quickly identify the contributions of a paper, they also enhance
the discoverability of the article via search engines. We aim to automatically
construct research highlights given certain segments of the research paper. We
use a pointer-generator network with coverage mechanism and a contextual
embedding layer at the input that encodes the input tokens into SciBERT
embeddings. We test our model on a benchmark dataset, CSPubSum and also present
MixSub, a new multi-disciplinary corpus of papers for automatic research
highlight generation. For both CSPubSum and MixSub, we have observed that the
proposed model achieves the best performance compared to related variants and
other models proposed in the literature. On the CSPubSum data set, our model
achieves the best performance when the input is only the abstract of a paper as
opposed to other segments of the paper. It produces ROUGE-1, ROUGE-2 and
ROUGE-L F1-scores of 38.26, 14.26 and 35.51, respectively, METEOR F1-score of
32.62, and BERTScore F1 of 86.65 which outperform all other baselines. On the
new MixSub data set, where only the abstract is the input, our proposed model
(when trained on the whole training corpus without distinguishing between the
subject categories) achieves ROUGE-1, ROUGE-2 and ROUGE-L F1-scores of 31.78,
9.76 and 29.3, respectively, METEOR F1-score of 24.00, and BERTScore F1 of
85.25, outperforming other models.
- Abstract(参考訳): 近年,本論文の主な知見を要約する研究論文が多数発表されている。
ハイライトは、研究者が論文のコントリビューションを正確かつ迅速に特定するのに役立つだけでなく、検索エンジンによる発見可能性を高める。
研究論文の特定の部分について,研究ハイライトを自動的に作成することを目的としている。
我々は,入力トークンをSciBERT埋め込みにエンコードする入力に,カバレッジ機構を備えたポインタジェネレータネットワークとコンテキスト埋め込み層を使用する。
我々は、ベンチマークデータセットCSPubSumと、自動研究ハイライト生成のための新しい論文の多分野コーパスMixSubでモデルを検証した。
CSPubSum と MixSub の両モデルにおいて,提案モデルが関連する変種や文献で提案する他のモデルと比較して,最高の性能を達成できることを示した。
CSPubSumデータセットでは,入力が紙の抽象的な部分のみである場合に,紙の他の部分に対して最高の性能を達成する。
ROUGE-1、ROUGE-2、ROUGE-L F1スコアは38.26、14.26、35.51、METEOR F1スコアは32.62、BERTScore F1は86.65である。
新しいMixSubデータセットでは,提案したモデル(対象カテゴリを区別せずにトレーニングコーパス全体をトレーニングした場合)が,それぞれ31.78,9.76,29.3のROUGE-1,ROUGE-2,ROUGE-L F1スコア,24.00のMETEOR F1スコア,85.25のBERTScore F1スコアを達成した。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文 参考訳(メタデータ) (2024-05-07T09:05:20Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Text Summarization Using Large Language Models: A Comparative Study of
MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models [0.0]
Leveraging Large Language Models (LLMs) は、要約技術の強化において、顕著な将来性を示している。
本稿では,MPT-7b-instruct,falcon-7b-instruct,OpenAI ChatGPT text-davinci-003 モデルなど,多種多様な LLM を用いたテキスト要約について検討する。
論文 参考訳(メタデータ) (2023-10-16T14:33:02Z) - Generating EDU Extracts for Plan-Guided Summary Re-Ranking [77.7752504102925]
要約候補を生成して1つの要約を返す2段階のアプローチでは、標準的な単一ステップアプローチよりもROUGEスコアを改善することができる。
これらの問題に対処する再ランク付け候補を生成するための新しい手法を設計する。
広く使われている単一文書ニュース記事コーパスにおいて,以前に公表された手法よりも大きな関連性を示した。
論文 参考訳(メタデータ) (2023-05-28T17:22:04Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Named Entity Recognition Based Automatic Generation of Research
Highlights [3.9410617513331863]
我々は,研究論文の異なるセクションを入力として,研究ハイライトを自動的に生成することを目指している。
入力に名前付きエンティティ認識を用いることで、生成したハイライトの品質が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-02-25T16:33:03Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Two Huge Title and Keyword Generation Corpora of Research Articles [0.0]
本稿では,テキスト要約(OAGSX)とキーワード生成(OAGKX)の2つの巨大なデータセットを紹介する。
データは、研究プロファイルと出版物のネットワークであるOpen Academic Graphから取得された。
より具体的な分野から研究論文のサブセットを導出するために、この2つの集合にトピックモデリングを適用したい。
論文 参考訳(メタデータ) (2020-02-11T21:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。