論文の概要: Into the Single Cell Multiverse: an End-to-End Dataset for Procedural
Knowledge Extraction in Biomedical Texts
- arxiv url: http://arxiv.org/abs/2309.01812v1
- Date: Mon, 4 Sep 2023 21:02:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:12:53.104804
- Title: Into the Single Cell Multiverse: an End-to-End Dataset for Procedural
Knowledge Extraction in Biomedical Texts
- Title(参考訳): 単細胞多元間: バイオメディカルテキストの手続き的知識抽出のためのエンドツーエンドデータセット
- Authors: Ruth Dannenfelser, Jeffrey Zhong, Ran Zhang and Vicky Yao
- Abstract要約: FlaMB'eは、バイオメディカルテキストの手続き的知識をキャプチャする専門家によるデータセットのコレクションである。
このデータセットは、非構造化テキストとして記述される手続き的知識のユビキタスソースが、その方法論を記述する学術論文の中にあるという観察にインスパイアされている。
- 参考スコア(独自算出の注目度): 2.2578044590557553
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many of the most commonly explored natural language processing (NLP)
information extraction tasks can be thought of as evaluations of declarative
knowledge, or fact-based information extraction. Procedural knowledge
extraction, i.e., breaking down a described process into a series of steps, has
received much less attention, perhaps in part due to the lack of structured
datasets that capture the knowledge extraction process from end-to-end. To
address this unmet need, we present FlaMB\'e (Flow annotations for Multiverse
Biological entities), a collection of expert-curated datasets across a series
of complementary tasks that capture procedural knowledge in biomedical texts.
This dataset is inspired by the observation that one ubiquitous source of
procedural knowledge that is described as unstructured text is within academic
papers describing their methodology. The workflows annotated in FlaMB\'e are
from texts in the burgeoning field of single cell research, a research area
that has become notorious for the number of software tools and complexity of
workflows used. Additionally, FlaMB\'e provides, to our knowledge, the largest
manually curated named entity recognition (NER) and disambiguation (NED)
datasets for tissue/cell type, a fundamental biological entity that is critical
for knowledge extraction in the biomedical research domain. Beyond providing a
valuable dataset to enable further development of NLP models for procedural
knowledge extraction, automating the process of workflow mining also has
important implications for advancing reproducibility in biomedical research.
- Abstract(参考訳): 最もよく研究されている自然言語処理(NLP)情報抽出タスクの多くは、宣言的知識の評価や事実に基づく情報抽出とみなすことができる。
手続き的知識抽出(procedural knowledge extraction)、すなわち、記述されたプロセスを一連のステップに分割することは、おそらく、エンドツーエンドから知識抽出プロセスをキャプチャする構造化データセットが欠如しているため、注意をそそられていない。
この不均一なニーズに対処するために、我々は、生物医学的テキストの手続き的知識をキャプチャする一連の補完的タスクをまたいだ専門家によるデータセットの集合であるflamb\'e (flow annotations for multiverse biological entities)を提案する。
このデータセットは、非構造化テキストとして記述される手続き的知識のユビキタスな情報源が、その方法論を説明する学術論文内にあるという観察から着想を得ている。
flamb\'eでアノテートされたワークフローは、ソフトウェアツールの数とワークフローの複雑さで悪名高い研究分野であるシングルセルリサーチの急成長する分野のテキストから来ている。
さらに、FraMB\'eは、私たちの知識に対して、生物医学研究領域における知識抽出に不可欠な基本的な生物学的実体である組織/細胞型のための、最も手作業による名前付きエンティティ認識(NER)と曖昧化(NED)データセットを提供します。
手続き的知識抽出のためのNLPモデルのさらなる開発を可能にする貴重なデータセットを提供する以外に、ワークフローマイニングのプロセスを自動化することは、生体医学研究における再現性向上に重要な意味を持つ。
関連論文リスト
- BioMNER: A Dataset for Biomedical Method Entity Recognition [25.403593761614424]
本稿では,生物医学的手法による実体認識のための新しいデータセットを提案する。
我々は、人間のアノテーションを支援するために、自動的なBioMethodエンティティ認識と情報検索システムを採用している。
実験の結果,言語モデルのパラメータ数が大きくなると,実体抽出パターンの有効同化が著しく阻害されることが判明した。
論文 参考訳(メタデータ) (2024-06-28T16:34:24Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - EMBRE: Entity-aware Masking for Biomedical Relation Extraction [12.821610050561256]
本稿では,関係抽出のためのEMBRE (Entity-Aware Masking for Biomedical Relation extract) 法を提案する。
具体的には、バックボーンモデルとエンティティマスキングの目的を事前学習することにより、エンティティ知識をディープニューラルネットワークに統合する。
論文 参考訳(メタデータ) (2024-01-15T18:12:01Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models [1.9665865095034865]
関係抽出タスクを大言語モデルのバイナリ分類として定式化する。
メインタイトルをテールエンティティとして指定し、コンテキストに明示的に組み込む。
長い内容はテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
論文 参考訳(メタデータ) (2023-12-13T16:43:41Z) - AIONER: All-in-one scheme-based biomedical named entity recognition
using deep learning [7.427654811697884]
AIONERは最先端のディープラーニングとAIOスキーマに基づく汎用BioNERツールである。
AIONERは効果的で堅牢で、マルチタスク学習のような最先端のアプローチと好適に比較できる。
論文 参考訳(メタデータ) (2022-11-30T12:35:00Z) - Machine learning in bioprocess development: From promise to practice [58.720142291102135]
機械学習(ML)アプローチのようなデータ駆動の手法は、大きな設計空間を合理的に探索する可能性が高い。
本研究の目的は,これまでのバイオプロセス開発におけるML手法の適用例を示すことである。
論文 参考訳(メタデータ) (2022-10-04T13:48:59Z) - Federated Cycling (FedCy): Semi-supervised Federated Learning of
Surgical Phases [57.90226879210227]
FedCyは、FLと自己教師付き学習を組み合わせた半教師付き学習(FSSL)手法で、ラベル付きビデオとラベルなしビデオの両方の分散データセットを利用する。
外科的段階の自動認識作業において,最先端のFSSL法よりも顕著な性能向上を示した。
論文 参考訳(メタデータ) (2022-03-14T17:44:53Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z) - Slot Filling for Biomedical Information Extraction [0.5330240017302619]
バイオメディカルIEの課題に対してスロットフィリングアプローチを提案する。
我々は、トランフォーマベースのバイエンコーダDense Passage RetrievalをTransformerベースのリーダーモデルと結合する提案パラダイムに従う。
論文 参考訳(メタデータ) (2021-09-17T14:16:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。