論文の概要: Segmenting Scientific Abstracts into Discourse Categories: A Deep
Learning-Based Approach for Sparse Labeled Data
- arxiv url: http://arxiv.org/abs/2005.05414v2
- Date: Wed, 27 May 2020 08:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 20:21:41.923989
- Title: Segmenting Scientific Abstracts into Discourse Categories: A Deep
Learning-Based Approach for Sparse Labeled Data
- Title(参考訳): 談話カテゴリに科学的抽象化を分割する:スパースラベルデータに対する深層学習に基づくアプローチ
- Authors: Soumya Banerjee, Debarshi Kumar Sanyal, Samiran Chattopadhyay, Plaban
Kumar Bhowmick and Parthapratim Das
- Abstract要約: 我々は、PubMedから構造化された抽象概念に基づいて深層ニューラルネットワークをトレーニングし、それを手書きのコンピュータサイエンス論文の小さなコーパスで微調整する。
本手法は,データが疎結合である抽象文の自動セグメンテーションにおいて,有望な解であると考えられる。
- 参考スコア(独自算出の注目度): 8.635930195821265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The abstract of a scientific paper distills the contents of the paper into a
short paragraph. In the biomedical literature, it is customary to structure an
abstract into discourse categories like BACKGROUND, OBJECTIVE, METHOD, RESULT,
and CONCLUSION, but this segmentation is uncommon in other fields like computer
science. Explicit categories could be helpful for more granular, that is,
discourse-level search and recommendation. The sparsity of labeled data makes
it challenging to construct supervised machine learning solutions for automatic
discourse-level segmentation of abstracts in non-bio domains. In this paper, we
address this problem using transfer learning. In particular, we define three
discourse categories BACKGROUND, TECHNIQUE, OBSERVATION-for an abstract because
these three categories are the most common. We train a deep neural network on
structured abstracts from PubMed, then fine-tune it on a small hand-labeled
corpus of computer science papers. We observe an accuracy of 75% on the test
corpus. We perform an ablation study to highlight the roles of the different
parts of the model. Our method appears to be a promising solution to the
automatic segmentation of abstracts, where the labeled data is sparse.
- Abstract(参考訳): 科学論文の要約は、その論文の内容を短い段落に蒸留する。
生体医学文献では、抽象概念をBACKGROUND、OBJECTIVE、Method、RESULT、ConCLUSIONなどの談話カテゴリに構造化するのが慣例であるが、コンピュータ科学などの他の分野ではこのセグメンテーションは一般的ではない。
明示的なカテゴリは、より粒度の細かい、つまり談話レベルの検索とレコメンデーションに役立つかもしれない。
ラベル付きデータのスパース性は、非バイオドメインにおける抽象概念の自動談話レベルセグメンテーションのための教師付き機械学習ソリューションの構築を困難にする。
本稿では,転送学習を用いてこの問題に対処する。
特に,これら3つのカテゴリーが最も一般的であるため,3つの談話カテゴリの背景,技法,観察を抽象的に定義する。
PubMedから構造化された抽象概念に基づいて深層ニューラルネットワークをトレーニングし、それを手書きのコンピュータサイエンス論文の小さなコーパスで微調整する。
テストコーパスでは75%の精度で観察した。
我々は,モデルの異なる部分の役割を強調するためにアブレーション研究を行う。
本手法は,ラベル付きデータがスパースである抽象部分の自動分割に対して有望な解決法であると考えられる。
関連論文リスト
- Data-driven Coreference-based Ontology Building [48.995395445597225]
参照解決は、伝統的に個々の文書理解のコンポーネントとして使用される。
よりグローバルな視点で、すべてのドキュメントレベルのコア参照関係から、ドメインについて何が学べるかを探求します。
コードとともに、クリエイティブ・コモンズライセンスの下でコア参照チェーンをリリースします。
論文 参考訳(メタデータ) (2024-10-22T14:30:40Z) - Ontology Embedding: A Survey of Methods, Applications and Resources [54.3453925775069]
オンロジはドメインの知識とメタデータを表現するために広く使われている。
直接支援できる論理的推論は、学習、近似、予測において非常に限られています。
1つの簡単な解決策は、統計分析と機械学習を統合することである。
論文 参考訳(メタデータ) (2024-06-16T14:49:19Z) - Empowering Interdisciplinary Research with BERT-Based Models: An Approach Through SciBERT-CNN with Topic Modeling [0.0]
本稿では,SciBERTモデルとCNNを用いて,学術論文を体系的に分類する手法を提案する。
CNNは、畳み込みとプーリングを使用して特徴抽出を強化し、次元を減少させる。
論文 参考訳(メタデータ) (2024-04-16T05:21:47Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Bloom-epistemic and sentiment analysis hierarchical classification in
course discussion forums [0.0]
提案手法はBloom-Epistemic and Sentiment Analysis (BE-Sent) の階層的アプローチである。
本研究は,議論フォーラムのテキストレビューに基づいて意見を評価する授業学習サブシステムの構築に成功した。
論文 参考訳(メタデータ) (2024-01-26T08:20:13Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - Extractive and Abstractive Sentence Labelling of Sentiment-bearing
Topics [5.014332673843021]
本稿では,感傷的話題を自動的に記述文ラベルでラベル付けする問題に対処する。
この問題に対して,抽出法と抽象法という2つのアプローチを提案する。
抽象的手法は感情を含むトピックに含まれる豊富な情報を効果的に合成することができると結論付けている。
論文 参考訳(メタデータ) (2021-08-29T11:08:39Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z) - Large Scale Subject Category Classification of Scholarly Papers with
Deep Attentive Neural Networks [15.241086410108512]
本稿では,学術論文を要約のみを用いて分類するディープ注意ニューラルネットワーク(DANN)を提案する。
提案するネットワークは2つの双方向リカレントニューラルネットワークとアテンション層から構成される。
最適モデルでは,0.50~0.95の範囲の個々の対象カテゴリーのF1に対して0.76のマイクロF1測定値が得られる。
論文 参考訳(メタデータ) (2020-07-27T19:42:42Z) - Heterogeneous Graph Neural Networks for Extractive Document
Summarization [101.17980994606836]
クロス文関係は、抽出文書要約における重要なステップである。
We present a graph-based neural network for extractive summarization (HeterSumGraph)
抽出文書要約のためのグラフベースニューラルネットワークに異なる種類のノードを導入する。
論文 参考訳(メタデータ) (2020-04-26T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。