論文の概要: DiMB-RE: Mining the Scientific Literature for Diet-Microbiome Associations
- arxiv url: http://arxiv.org/abs/2409.19581v1
- Date: Sun, 29 Sep 2024 06:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:05:07.333952
- Title: DiMB-RE: Mining the Scientific Literature for Diet-Microbiome Associations
- Title(参考訳): DiMB-RE: ダイエットマイクロバイオーム協会のための科学文献のマイニング
- Authors: Gibong Hong, Veronica Hindle, Nadine M. Veasley, Hannah D. Holscher, Halil Kilicoglu,
- Abstract要約: DiMB-REは15の実体型と13の関連型をアノテートした包括的コーパスである。
我々は、名前付きエンティティ、トリガー、関係抽出および事実検出のための最先端自然言語処理(NLP)モデルを訓練し、評価した。
- 参考スコア(独自算出の注目度): 0.10485739694839666
- License:
- Abstract: Motivation: The gut microbiota has recently emerged as a key factor that underpins certain connections between diet and human health. A tremendous amount of knowledge has been amassed from experimental studies on diet, human metabolism and microbiome. However, this evidence remains mostly buried in scientific publications, and biomedical literature mining in this domain remains scarce. We developed DiMB-RE, a comprehensive corpus annotated with 15 entity types (e.g., Nutrient, Microorganism) and 13 relation types (e.g., increases, improves) capturing diet-microbiome associations. We also trained and evaluated state-of-the-art natural language processing (NLP) models for named entity, trigger, and relation extraction as well as factuality detection using DiMB-RE. Results: DiMB-RE consists of 14,450 entities and 4,206 relationships from 165 articles. While NLP models performed reasonably well for named entity recognition (0.760 F$_{1}$), end-to-end relation extraction performance was modest (0.356 F$_{1}$), partly due to missed entities and triggers as well as cross-sentence relations. Conclusions: To our knowledge, DiMB-RE is largest and most diverse dataset focusing on diet-microbiome interactions. It can serve as a benchmark corpus for biomedical literature mining. Availability: DiMB-RE and the NLP models are available at https://github.com/ScienceNLP-Lab/DiMB-RE.
- Abstract(参考訳): モチベーション:腸内微生物は、最近、食事と人間の健康の特定の関係を支えている重要な要因として現れました。
食事、ヒトの代謝、微生物に関する実験研究から、膨大な量の知識が集められている。
しかし、この証拠はほとんど科学論文に埋もれており、この領域の生物医学文献の採掘は少ない。
DMB-REは15の実体型(例えば栄養素,微生物)と13の関連型(例:増加,改善)をアノテートした包括的コーパスである。
また,名前付きエンティティ,トリガ,関係抽出のための最先端自然言語処理(NLP)モデルや,DMB-REを用いた事実検出の訓練と評価を行った。
結果: DiMB-REは165記事から14,450のエンティティと4,206のリレーションシップで構成されている。
NLPモデルは、名前付きエンティティ認識(0.760 F$_{1}$)に対して合理的に動作したが、エンティティとトリガの欠如と、クロス文関係のため、エンドツーエンドの関係抽出性能は控えめであった(0.356 F$_{1}$)。
結論: 我々の知る限り、ダイエットと微生物の相互作用に焦点を当てたDiMB-REは最大かつ最も多様なデータセットである。
バイオメディカル文献採掘のためのベンチマークコーパスとして機能する。
DiMB-REとNLPモデルはhttps://github.com/ScienceNLP-Lab/DiMB-REで入手できる。
関連論文リスト
- BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text [82.7001841679981]
BioMedLM は270億のパラメータ GPT スタイルの自己回帰モデルであり、PubMed の抽象概念と全記事に特化して訓練されている。
微調整すると、BioMedLMはより大規模なモデルと競合する強力な多重選択のバイオメディカルな質問応答結果を生成することができる。
BioMedLMは、医療トピックに関する患者の質問に対する有用な回答を生成するために、微調整することもできる。
論文 参考訳(メタデータ) (2024-03-27T10:18:21Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Large Language Models, scientific knowledge and factuality: A systematic
analysis in antibiotic discovery [0.0]
本研究では,生物医学的背景知識と対話するための大規模言語モデルの可能性を検討する。
化学化合物定義生成と化学化合物・ファングス関係決定の2つのプロンプトベースタスクにおいて、最先端の10のモデルが試験される。
その結果、最近のモデルでは流布率が改善されているが、実際の精度は依然として低く、表現過剰な実体に偏っていることがわかった。
論文 参考訳(メタデータ) (2023-05-28T22:46:21Z) - A Distant Supervision Corpus for Extracting Biomedical Relationships
Between Chemicals, Diseases and Genes [35.372588846754645]
ChemDisGeneは、マルチクラスマルチラベル文書レベルのバイオメディカル関係抽出モデルのトレーニングと評価のための新しいデータセットである。
我々のデータセットには、化学物質、疾患、遺伝子への言及をラベル付けした80万のバイオメディカル研究が含まれている。
論文 参考訳(メタデータ) (2022-04-13T18:02:05Z) - BioRED: A Comprehensive Biomedical Relation Extraction Dataset [6.915371362219944]
我々は,複数の実体型と関係対を持つ第一種バイオメディカルREコーパスであるBioREDを提示する。
それぞれの関係を、新しい発見知識または以前に知られていた背景知識を記述するものとしてラベル付けし、自動化アルゴリズムが新規情報と背景情報を区別できるようにする。
以上の結果から,既存の手法は NER タスクでは高い性能が得られるが,RE タスクには多くの改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2022-04-08T19:23:49Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - R-BERT-CNN: Drug-target interactions extraction from biomedical
literature [1.8814209805277506]
薬物プロットタスクのBioCreative VIIへの参加について紹介する。
薬物-標的相互作用(DTI)は、薬物の発見と再資源化に重要である。
PubMedには32万件のバイオメディカル記事があり、このような膨大な知識ベースからDTIを手作業で抽出することは困難である。
論文 参考訳(メタデータ) (2021-10-31T22:50:33Z) - FoodChem: A food-chemical relation extraction model [0.0]
食品成分組成に含まれる化学物質を同定するための新しい関係抽出(RE)モデルを提案する。
BioBERTモデルは、マクロ平均F1スコアが0.902のアンバランスな拡張設定で、最良の結果を得る。
論文 参考訳(メタデータ) (2021-10-05T13:07:33Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Neural networks for Anatomical Therapeutic Chemical (ATC) [83.73971067918333]
両方向の長期記憶ネットワーク(BiLSTM)から抽出された集合を含む、特徴の異なるセットで訓練された複数の複数ラベル分類器を組み合わせることを提案する。
実験はこのアプローチのパワーを実証し、文献で報告された最良の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-01-22T19:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。