論文の概要: Feature engineering vs. deep learning for paper section identification: Toward applications in Chinese medical literature
- arxiv url: http://arxiv.org/abs/2412.11125v1
- Date: Sun, 15 Dec 2024 09:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:12.725898
- Title: Feature engineering vs. deep learning for paper section identification: Toward applications in Chinese medical literature
- Title(参考訳): 紙セクション識別における特徴工学と深層学習--中国医学における応用に向けて
- Authors: Sijia Zhou, Xin Li,
- Abstract要約: セクション識別は図書館科学、特に知識管理にとって重要な課題である。
中国医学文献分析の文脈における論文セクション識別問題について検討する。
- 参考スコア(独自算出の注目度): 5.773921786449337
- License:
- Abstract: Section identification is an important task for library science, especially knowledge management. Identifying the sections of a paper would help filter noise in entity and relation extraction. In this research, we studied the paper section identification problem in the context of Chinese medical literature analysis, where the subjects, methods, and results are more valuable from a physician's perspective. Based on previous studies on English literature section identification, we experiment with the effective features to use with classic machine learning algorithms to tackle the problem. It is found that Conditional Random Fields, which consider sentence interdependency, is more effective in combining different feature sets, such as bag-of-words, part-of-speech, and headings, for Chinese literature section identification. Moreover, we find that classic machine learning algorithms are more effective than generic deep learning models for this problem. Based on these observations, we design a novel deep learning model, the Structural Bidirectional Long Short-Term Memory (SLSTM) model, which models word and sentence interdependency together with the contextual information. Experiments on a human-curated asthma literature dataset show that our approach outperforms the traditional machine learning methods and other deep learning methods and achieves close to 90% precision and recall in the task. The model shows good potential for use in other text mining tasks. The research has significant methodological and practical implications.
- Abstract(参考訳): セクション識別は図書館科学、特に知識管理にとって重要な課題である。
論文のセクションを特定することは、実体と関係抽出におけるノイズをフィルタリングするのに役立ちます。
本研究は,中国医学文献分析の文脈において,医師の立場から,対象,方法,結果がより貴重である紙断面識別問題について検討した。
英文学のセクション識別に関する過去の研究に基づいて,従来の機械学習アルゴリズムを用いてこの問題に対処するための有効な特徴を実験した。
文の相互依存を考慮した条件付きランダムフィールドは,中国語の文節識別のために,単語の袋,音声の一部,見出しなどの異なる特徴セットを組み合わせるのに有効であることがわかった。
さらに,従来の機械学習アルゴリズムは,この問題に対する汎用的なディープラーニングモデルよりも有効であることがわかった。
これらの観測に基づいて,文脈情報とともに単語と文の相互依存性をモデル化する新しいディープラーニングモデルである構造的双方向長短期記憶(SLSTM)モデルを設計する。
人為的な喘息研究データセットの実験では、従来の機械学習手法や他のディープラーニング手法よりも優れており、タスクにおける90%近い精度とリコールが達成されている。
このモデルは、他のテキストマイニングタスクで使える可能性を示している。
この研究は、重要な方法論と実践的意味を持っている。
関連論文リスト
- Enhancing literature review with LLM and NLP methods. Algorithmic trading case [0.0]
本研究では,機械学習アルゴリズムを用いて,アルゴリズム取引分野の知識を分析し,整理する。
1956年から2020年の第1四半期にかけて、1億3600万件の研究論文のデータセットをフィルタリングして14,342件の関連記事を特定した。
論文 参考訳(メタデータ) (2024-10-23T13:37:27Z) - Ontology Embedding: A Survey of Methods, Applications and Resources [54.3453925775069]
オントロジはドメイン知識とメタデータを表現するために広く使われている。
1つの簡単な解決策は、統計分析と機械学習を統合することである。
埋め込みに関する多くの論文が出版されているが、体系的なレビューの欠如により、研究者はこの分野の包括的な理解を妨げている。
論文 参考訳(メタデータ) (2024-06-16T14:49:19Z) - Construction of a Syntactic Analysis Map for Yi Shui School through Text
Mining and Natural Language Processing Research [5.015294834550435]
本研究では,条件付きランダムフィールドに基づく単語分割と実体関係抽出モデルを構築する。
依存関係ネットワークは、古代の書籍の各記事におけるエンティティ間の文法的関係を分析するために使用される。
論文 参考訳(メタデータ) (2024-02-16T14:59:55Z) - Searching for chromate replacements using natural language processing
and machine learning algorithms [0.0]
本研究は、科学的文献の自動解釈から知識を抽出し、専門家による人間レベルの洞察を得ることが可能であることを実証する。
我々は、以前他の人によって探求されたWord2VecモデルとBERTモデルを採用し、それらを材料工学におけるユニークな挑戦に適用した。
論文 参考訳(メタデータ) (2022-08-11T07:21:18Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z) - Enhancing Identification of Structure Function of Academic Articles
Using Contextual Information [6.28532577139029]
本稿では,学術論文の構造的機能を明らかにするためのコーパスとして,ACLカンファレンスの記事を取り上げる。
従来の機械学習モデルとディープラーニングモデルを用いて、様々な特徴入力に基づいて分類器を構築する。
2) に触発された本論文は,ディープラーニングモデルに文脈情報を導入し,重要な結果を得た。
論文 参考訳(メタデータ) (2021-11-28T11:21:21Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Ten Quick Tips for Deep Learning in Biology [116.78436313026478]
機械学習は、データのパターンを認識し、予測モデリングに使用するアルゴリズムの開発と応用に関係している。
ディープラーニングは、独自の機械学習のサブフィールドになっている。
生物学的研究の文脈において、ディープラーニングは高次元の生物学的データから新しい洞察を導き出すためにますます使われてきた。
論文 参考訳(メタデータ) (2021-05-29T21:02:44Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z) - Towards Improved Model Design for Authorship Identification: A Survey on
Writing Style Understanding [30.642840676899734]
著者識別タスクは言語スタイルに大きく依存している。
手作りの機能セットに基づく従来の機械学習手法は、すでにパフォーマンスの限界に近づいている。
スタイル関連タスクにおける卓越した手法を概説し、それらの組み合わせがトップパフォーマンスモデルでどのように使われているかを分析する。
論文 参考訳(メタデータ) (2020-09-30T05:17:42Z) - Confident Coreset for Active Learning in Medical Image Analysis [57.436224561482966]
本稿では,情報的サンプルを効果的に選択するための,不確実性と分散性を考慮した新しい能動的学習手法である信頼コアセットを提案する。
2つの医用画像解析タスクの比較実験により,本手法が他の活動的学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-05T13:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。