論文の概要: Method and Dataset Entity Mining in Scientific Literature: A CNN +
Bi-LSTM Model with Self-attention
- arxiv url: http://arxiv.org/abs/2010.13583v2
- Date: Thu, 28 Jan 2021 02:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:05:31.060177
- Title: Method and Dataset Entity Mining in Scientific Literature: A CNN +
Bi-LSTM Model with Self-attention
- Title(参考訳): 科学的文献におけるメソッドとデータセットエンティティマイニング:自己注意型CNN+Bi-LSTMモデル
- Authors: Linlin Hou, Ji Zhang, Ou Wu, Ting Yu, Zhen Wang, Zhao Li, Jianliang
Gao, Yingchun Ye, Rujing Yao
- Abstract要約: MDERと呼ばれる新しいエンティティ認識モデルを提案し、科学的論文から効果的にメソッドとデータセットを抽出することができる。
我々は,NLP,CV,データマイニング,AIの4つの研究分野の論文から構築したデータセットのモデルを評価する。
- 参考スコア(独自算出の注目度): 21.93889297841459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Literature analysis facilitates researchers to acquire a good understanding
of the development of science and technology. The traditional literature
analysis focuses largely on the literature metadata such as topics, authors,
abstracts, keywords, references, etc., and little attention was paid to the
main content of papers. In many scientific domains such as science, computing,
engineering, etc., the methods and datasets involved in the scientific papers
published in those domains carry important information and are quite useful for
domain analysis as well as algorithm and dataset recommendation. In this paper,
we propose a novel entity recognition model, called MDER, which is able to
effectively extract the method and dataset entities from the main textual
content of scientific papers. The model utilizes rule embedding and adopts a
parallel structure of CNN and Bi-LSTM with the self-attention mechanism. We
evaluate the proposed model on datasets which are constructed from the
published papers of four research areas in computer science, i.e., NLP, CV,
Data Mining and AI. The experimental results demonstrate that our model
performs well in all the four areas and it features a good learning capacity
for cross-area learning and recognition. We also conduct experiments to
evaluate the effectiveness of different building modules within our model which
indicate that the importance of different building modules in collectively
contributing to the good entity recognition performance as a whole. The data
augmentation experiments on our model demonstrated that data augmentation
positively contributes to model training, making our model much more robust in
dealing with the scenarios where only small number of training samples are
available. We finally apply our model on PAKDD papers published from 2009-2019
to mine insightful results from scientific papers published in a longer time
span.
- Abstract(参考訳): 文献分析は、研究者が科学と技術の発達をよく理解することを促進する。
従来の文献分析は、主にトピック、著者、要約、キーワード、参照など文学のメタデータに焦点が当てられ、論文の主要な内容にはほとんど注目されなかった。
科学、計算、工学などの多くの科学分野において、これらの領域で発行される科学論文にかかわる方法やデータセットは重要な情報を持ち、アルゴリズムやデータセットの推薦と同様にドメイン分析に非常に役立つ。
本稿では,科学論文の主文内容から,その方法とデータセットを効果的に抽出できる,mderと呼ばれる新しいエンティティ認識モデルを提案する。
このモデルはルール埋め込みを利用し、自己保持機構を備えたCNNとBi-LSTMの並列構造を採用する。
計算機科学における4つの研究領域(nlp,cv,データマイニング,ai)の論文から得られたデータセットに関する提案モデルを評価する。
実験結果から,本モデルは4分野すべてで良好に動作し,クロスエリア学習と認識に優れた学習能力を有することが示された。
また、モデル内の異なるビルディングモジュールの有効性を評価する実験を行い、異なるビルディングモジュールの重要性が全体として優れたエンティティ認識性能に寄与していることを示します。
私たちのモデルにおけるデータ拡張実験は、データ拡張がモデルのトレーニングにプラスに寄与することを示しました。
2009~2019年に発行されたPAKDD論文に、最終的に我々のモデルを適用し、より長い時間で発行された科学論文から洞察に富んだ結果を得る。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Human-artificial intelligence teaming for scientific information extraction from data-driven additive manufacturing research using large language models [3.0061386772253784]
近年,データ駆動型アダプティブ・マニュファクチャリング(AM)の研究は大きな成功を収めている。
この結果、多くの科学文献が誕生した。
これらの作品から科学的情報を取り出すにはかなりの労力と時間を要する。
本稿では,AMとAIの専門家が共同で,データ駆動型AM文献から科学情報を継続的に抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-26T15:43:52Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - A Survey of Decomposition-Based Evolutionary Multi-Objective Optimization: Part II -- A Data Science Perspective [4.322038460697958]
5,400以上の論文,10,000人の著者,400の会場,1600のMOEA/D研究機関をカプセル化したナレッジグラフを構築します。
また、MOEA/Dの協調と引用ネットワークを探求し、文学の成長に隠れたパターンを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T14:38:58Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - Enhancing Identification of Structure Function of Academic Articles
Using Contextual Information [6.28532577139029]
本稿では,学術論文の構造的機能を明らかにするためのコーパスとして,ACLカンファレンスの記事を取り上げる。
従来の機械学習モデルとディープラーニングモデルを用いて、様々な特徴入力に基づいて分類器を構築する。
2) に触発された本論文は,ディープラーニングモデルに文脈情報を導入し,重要な結果を得た。
論文 参考訳(メタデータ) (2021-11-28T11:21:21Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。