論文の概要: LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents
- arxiv url: http://arxiv.org/abs/2203.15349v1
- Date: Tue, 29 Mar 2022 08:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 13:54:47.876204
- Title: LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents
- Title(参考訳): LDKP:長い科学文献からキーワードを識別するためのデータセット
- Authors: Debanjan Mahata, Naveen Agarwal, Dibya Gautam, Amardeep Kumar, Swapnil
Parekh, Yaman Kumar Singla, Anish Acharya, Rajiv Ratn Shah
- Abstract要約: テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
- 参考スコア(独自算出の注目度): 48.84086818702328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying keyphrases (KPs) from text documents is a fundamental task in
natural language processing and information retrieval. Vast majority of the
benchmark datasets for this task are from the scientific domain containing only
the document title and abstract information. This limits keyphrase extraction
(KPE) and keyphrase generation (KPG) algorithms to identify keyphrases from
human-written summaries that are often very short (approx 8 sentences). This
presents three challenges for real-world applications: human-written summaries
are unavailable for most documents, the documents are almost always long, and a
high percentage of KPs are directly found beyond the limited context of title
and abstract. Therefore, we release two extensive corpora mapping KPs of ~1.3M
and ~100K scientific articles with their fully extracted text and additional
metadata including publication venue, year, author, field of study, and
citations for facilitating research on this real-world problem.
- Abstract(参考訳): テキスト文書からキーフレーズ(KP)を識別することは自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象的な情報のみを含む科学領域からのものです。
これはキーフレーズ抽出(KPE)とキーフレーズ生成(KPG)アルゴリズムを制限し、しばしば非常に短い要約(8文)からキーフレーズを識別する。
人間が書いた要約は、ほとんどのドキュメントでは利用できないし、文書はほぼ常に長いし、高いkpsはタイトルと抽象の限られたコンテキストを超えて直接見つけられる。
そこで本研究では,1.3m~100k科学論文のコーパスマッピングkpsを,出版場所,年,著者,研究分野,引用などのメタデータを抽出して公開し,実世界問題の研究を促進する。
関連論文リスト
- Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Keyphrase Generation Beyond the Boundaries of Title and Abstract [28.56508031460787]
キーワード生成は、与えられた文書を最もよく記述するフレーズ(キーワード)を生成することを目的としている。
本研究では、意味論的に類似した記事からの追加データの統合や、与えられた記事の全文の統合が、ニューラルキーフレーズ生成モデルに役立つかどうかを考察する。
特に記事の要約形式で全文から文を追加することは、両方のキーフレーズの生成を著しく改善することを発見した。
論文 参考訳(メタデータ) (2021-12-13T16:33:01Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - Multi-Document Keyphrase Extraction: A Literature Review and the First
Dataset [24.91326715164367]
文書の集合を記述するのに有用であるにもかかわらず、多文書キーフレーズ抽出は頻繁に研究されている。
ここでは、最初の文献レビューとタスクのための最初のデータセットであるMK-DUC-01を紹介し、新しいベンチマークとして機能する。
論文 参考訳(メタデータ) (2021-10-03T19:10:28Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - ParaSCI: A Large Scientific Paraphrase Dataset for Longer Paraphrase
Generation [78.10924968931249]
parasciは科学分野で最初の大規模パラフレーズデータセットである。
このデータセットは、ACL(ParaSCI-ACL)から33,981対、arXiv(ParaSCI-arXiv)から316,063対を含む。
論文 参考訳(メタデータ) (2021-01-21T01:10:06Z) - PerKey: A Persian News Corpus for Keyphrase Extraction and Generation [1.192436948211501]
PerKeyは、ペルシャの6つのニュースサイトから553kのニュース記事のコーパスであり、比較的高品質な著者がキーフレーズを抽出した。
データは、キーフレーズの品質を保証するために、人間の評価に入れられた。
論文 参考訳(メタデータ) (2020-09-25T14:36:41Z) - GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction [1.0681288493631977]
本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。
GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。
キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
論文 参考訳(メタデータ) (2020-05-19T20:24:02Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。