論文の概要: DiMB-RE: Mining the Scientific Literature for Diet-Microbiome Associations
- arxiv url: http://arxiv.org/abs/2409.19581v1
- Date: Sun, 29 Sep 2024 06:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 22:28:30.506272
- Title: DiMB-RE: Mining the Scientific Literature for Diet-Microbiome Associations
- Title(参考訳): DiMB-RE: ダイエットマイクロバイオーム協会のための科学文献のマイニング
- Authors: Gibong Hong, Veronica Hindle, Nadine M. Veasley, Hannah D. Holscher, Halil Kilicoglu,
- Abstract要約: DiMB-REは15の実体型と13の関連型をアノテートした包括的コーパスである。
我々は、名前付きエンティティ、トリガー、関係抽出および事実検出のための最先端自然言語処理(NLP)モデルを訓練し、評価した。
- 参考スコア(独自算出の注目度): 0.10485739694839666
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Motivation: The gut microbiota has recently emerged as a key factor that underpins certain connections between diet and human health. A tremendous amount of knowledge has been amassed from experimental studies on diet, human metabolism and microbiome. However, this evidence remains mostly buried in scientific publications, and biomedical literature mining in this domain remains scarce. We developed DiMB-RE, a comprehensive corpus annotated with 15 entity types (e.g., Nutrient, Microorganism) and 13 relation types (e.g., increases, improves) capturing diet-microbiome associations. We also trained and evaluated state-of-the-art natural language processing (NLP) models for named entity, trigger, and relation extraction as well as factuality detection using DiMB-RE. Results: DiMB-RE consists of 14,450 entities and 4,206 relationships from 165 articles. While NLP models performed reasonably well for named entity recognition (0.760 F$_{1}$), end-to-end relation extraction performance was modest (0.356 F$_{1}$), partly due to missed entities and triggers as well as cross-sentence relations. Conclusions: To our knowledge, DiMB-RE is largest and most diverse dataset focusing on diet-microbiome interactions. It can serve as a benchmark corpus for biomedical literature mining. Availability: DiMB-RE and the NLP models are available at https://github.com/ScienceNLP-Lab/DiMB-RE.
- Abstract(参考訳): モチベーション:腸内微生物は、最近、食事と人間の健康の特定の関係を支えている重要な要因として現れました。
食事、ヒトの代謝、微生物に関する実験研究から、膨大な量の知識が集められている。
しかし、この証拠はほとんど科学論文に埋もれており、この領域の生物医学文献の採掘は少ない。
DMB-REは15の実体型(例えば栄養素,微生物)と13の関連型(例:増加,改善)をアノテートした包括的コーパスである。
また,名前付きエンティティ,トリガ,関係抽出のための最先端自然言語処理(NLP)モデルや,DMB-REを用いた事実検出の訓練と評価を行った。
結果: DiMB-REは165記事から14,450のエンティティと4,206のリレーションシップで構成されている。
NLPモデルは、名前付きエンティティ認識(0.760 F$_{1}$)に対して合理的に動作したが、エンティティとトリガの欠如と、クロス文関係のため、エンドツーエンドの関係抽出性能は控えめであった(0.356 F$_{1}$)。
結論: 我々の知る限り、ダイエットと微生物の相互作用に焦点を当てたDiMB-REは最大かつ最も多様なデータセットである。
バイオメディカル文献採掘のためのベンチマークコーパスとして機能する。
DiMB-REとNLPモデルはhttps://github.com/ScienceNLP-Lab/DiMB-REで入手できる。
関連論文リスト
- Extracting Patient History from Clinical Text: A Comparative Study of Clinical Large Language Models [3.1277841304339065]
本研究は,臨床大言語モデル(cLLMs)の医療史エンティティ(MHEs)認識における性能評価である。
MTSamplesレポジトリから61例の外来臨床ノートに1,449例の診断を行った。
cLLMsはMHEの抽出に要する時間を20%以上短縮する可能性を示した。
論文 参考訳(メタデータ) (2025-03-30T02:00:56Z) - Semi-Supervised Learning from Small Annotated Data and Large Unlabeled Data for Fine-grained PICO Entity Recognition [17.791233666137092]
既存のアプローチはPICOエンティティの属性を区別しない。
本研究の目的は,細粒度PICOエンティティを抽出する名前付きエンティティ認識モデルを開発することである。
論文 参考訳(メタデータ) (2024-12-26T20:24:35Z) - Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。
本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-26T03:56:21Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text [82.7001841679981]
BioMedLM は270億のパラメータ GPT スタイルの自己回帰モデルであり、PubMed の抽象概念と全記事に特化して訓練されている。
微調整すると、BioMedLMはより大規模なモデルと競合する強力な多重選択のバイオメディカルな質問応答結果を生成することができる。
BioMedLMは、医療トピックに関する患者の質問に対する有用な回答を生成するために、微調整することもできる。
論文 参考訳(メタデータ) (2024-03-27T10:18:21Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - BioBLP: A Modular Framework for Learning on Multimodal Biomedical
Knowledge Graphs [3.780924717521521]
知識グラフへの埋め込みを学習するためのモジュラーフレームワークを提案する。
異なるモダリティの属性データをエンコードできると同時に、属性が欠けているエンティティもサポートする。
約200万トリプルのバイオメディカルKGを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2023-06-06T11:49:38Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - A Distant Supervision Corpus for Extracting Biomedical Relationships
Between Chemicals, Diseases and Genes [35.372588846754645]
ChemDisGeneは、マルチクラスマルチラベル文書レベルのバイオメディカル関係抽出モデルのトレーニングと評価のための新しいデータセットである。
我々のデータセットには、化学物質、疾患、遺伝子への言及をラベル付けした80万のバイオメディカル研究が含まれている。
論文 参考訳(メタデータ) (2022-04-13T18:02:05Z) - BioRED: A Comprehensive Biomedical Relation Extraction Dataset [6.915371362219944]
我々は,複数の実体型と関係対を持つ第一種バイオメディカルREコーパスであるBioREDを提示する。
それぞれの関係を、新しい発見知識または以前に知られていた背景知識を記述するものとしてラベル付けし、自動化アルゴリズムが新規情報と背景情報を区別できるようにする。
以上の結果から,既存の手法は NER タスクでは高い性能が得られるが,RE タスクには多くの改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2022-04-08T19:23:49Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - R-BERT-CNN: Drug-target interactions extraction from biomedical
literature [1.8814209805277506]
薬物プロットタスクのBioCreative VIIへの参加について紹介する。
薬物-標的相互作用(DTI)は、薬物の発見と再資源化に重要である。
PubMedには32万件のバイオメディカル記事があり、このような膨大な知識ベースからDTIを手作業で抽出することは困難である。
論文 参考訳(メタデータ) (2021-10-31T22:50:33Z) - FoodChem: A food-chemical relation extraction model [0.0]
食品成分組成に含まれる化学物質を同定するための新しい関係抽出(RE)モデルを提案する。
BioBERTモデルは、マクロ平均F1スコアが0.902のアンバランスな拡張設定で、最良の結果を得る。
論文 参考訳(メタデータ) (2021-10-05T13:07:33Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Neural networks for Anatomical Therapeutic Chemical (ATC) [83.73971067918333]
両方向の長期記憶ネットワーク(BiLSTM)から抽出された集合を含む、特徴の異なるセットで訓練された複数の複数ラベル分類器を組み合わせることを提案する。
実験はこのアプローチのパワーを実証し、文献で報告された最良の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-01-22T19:49:47Z) - Towards Incorporating Entity-specific Knowledge Graph Information in
Predicting Drug-Drug Interactions [1.14219428942199]
本稿では,他のバイオメディカル・エンティティとの相互作用から得られる薬物の埋め込みと,ドメイン固有のBioBERT埋め込みに基づくRCアーキテクチャを組み合わせる新しい手法であるBERTKG-DDIを提案する。
DDIExtraction 2013 コーパスで行った実験では、この戦略が他のベースラインアーキテクチャを4.1%マクロF1スコアで改善することを明確に示している。
論文 参考訳(メタデータ) (2020-12-21T06:44:32Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - Assessing Graph-based Deep Learning Models for Predicting Flash Point [52.931492216239995]
グラフベースのディープラーニング(GBDL)モデルは初めてフラッシュポイントを予測するために実装された。
MPNNの平均R2と平均絶対誤差(MAE)は、それぞれ2.3%低、2.0K高である。
論文 参考訳(メタデータ) (2020-02-26T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。