論文の概要: SuMe: A Dataset Towards Summarizing Biomedical Mechanisms
- arxiv url: http://arxiv.org/abs/2205.04652v1
- Date: Tue, 10 May 2022 03:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 20:38:05.057093
- Title: SuMe: A Dataset Towards Summarizing Biomedical Mechanisms
- Title(参考訳): SuMe: バイオメディカルメカニズムの要約に向けたデータセット
- Authors: Mohaddeseh Bastan, Nishant Shankar, Mihai Surdeanu, and Niranjan
Balasubramanian
- Abstract要約: バイオメディカルメカニズムの要約タスクを導入する。
生物医学的な研究は、ある物質(例えば、タンパク質や化学物質)が生物学的文脈において他の物質にどのように影響するかのメカニズムをしばしば研究する。
我々はこの構造を利用して要約タスクを作成し、入力は抽象的な文と主エンティティの集合であり、出力は機構を要約する関係と文を含む。
- 参考スコア(独自算出の注目度): 28.115944109646314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can language models read biomedical texts and explain the biomedical
mechanisms discussed? In this work we introduce a biomedical mechanism
summarization task. Biomedical studies often investigate the mechanisms behind
how one entity (e.g., a protein or a chemical) affects another in a biological
context. The abstracts of these publications often include a focused set of
sentences that present relevant supporting statements regarding such
relationships, associated experimental evidence, and a concluding sentence that
summarizes the mechanism underlying the relationship. We leverage this
structure and create a summarization task, where the input is a collection of
sentences and the main entities in an abstract, and the output includes the
relationship and a sentence that summarizes the mechanism. Using a small amount
of manually labeled mechanism sentences, we train a mechanism sentence
classifier to filter a large biomedical abstract collection and create a
summarization dataset with 22k instances. We also introduce conclusion sentence
generation as a pretraining task with 611k instances. We benchmark the
performance of large bio-domain language models. We find that while the
pretraining task help improves performance, the best model produces acceptable
mechanism outputs in only 32% of the instances, which shows the task presents
significant challenges in biomedical language understanding and summarization.
- Abstract(参考訳): 言語モデルは生物医学的テキストを読み、議論される生体医学的メカニズムを説明することができるか?
本稿では,生物医療機構の要約タスクを紹介する。
生物医学的な研究は、ある物質(例えば、タンパク質や化学物質)が生物学的文脈において他の物質にどのように影響するかのメカニズムをしばしば研究する。
これらの出版物の要約には、しばしばそのような関係に関する関連する支持言明を提示する集中した一連の文、関連する実験的な証拠、および関係の基礎となるメカニズムを要約する結論付け文が含まれる。
我々はこの構造を利用して要約タスクを作成し、入力は抽象的な文と主エンティティの集合であり、出力は機構を要約する関係と文を含む。
少量の手動ラベル付き機構文を用いて,機構文分類器を訓練し,大規模な生体医学的抽象コレクションをフィルタリングし,22kインスタンスの要約データセットを作成する。
また,611kインスタンスの事前学習タスクとして結論文生成を導入する。
大規模生物ドメイン言語モデルの性能をベンチマークする。
事前学習タスクは性能向上に役立ちながら,最高のモデルでは32%のインスタンスで許容可能なメカニズムの出力を生成しており,これは生物医学的言語理解と要約において重要な課題であることを示している。
関連論文リスト
- Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning [77.90250740041411]
本稿では,BioT5フレームワークの拡張であるBioT5+を紹介する。
BioT5+ には、分子理解のための IUPAC 名の統合、bioRxiv や PubChem などのソースからの広範なバイオテキストと分子データの統合、タスク間の汎用性のためのマルチタスク命令チューニング、数値データの処理を改善する数値トークン化技術など、いくつかの新機能が含まれている。
論文 参考訳(メタデータ) (2024-02-27T12:43:09Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Biomedical Language Models are Robust to Sub-optimal Tokenization [30.175714262031253]
現代のバイオメディカル言語モデル(LM)は、標準的なドメイン固有のトークン化器を用いて事前訓練されている。
より正確なバイオメディカルトークン化器を用いたバイオメディカルLMの事前トレーニングでは,言語モデルの実体表現品質が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-30T13:35:24Z) - BioNLI: Generating a Biomedical NLI Dataset Using Lexico-semantic
Constraints for Adversarial Examples [30.71464910413546]
自然言語推論(NLI)は、生物医学領域における複雑な意思決定に重要である。
既存のバイオメディカルデータセットからNLIデータセットをブートストラップする,新たな半教師付き手順を導入する。
基礎となるメカニズムの構造を操作する9つの戦略を用いて、ネガティブな例を多数生成する。
論文 参考訳(メタデータ) (2022-10-26T16:02:49Z) - An Empirical Study on Relation Extraction in the Biomedical Domain [0.0]
文レベルの関係抽出と文書レベルの関係抽出について検討し、いくつかのベンチマークデータセット上で最先端の手法を実行する。
以上の結果から,(1)現行の文書レベルの関係抽出手法は高い一般化能力を有し,(2)既存の手法では,バイオメディシンのモデル微調整に大量のラベル付きデータを必要とすることがわかった。
論文 参考訳(メタデータ) (2021-12-11T03:36:38Z) - BioIE: Biomedical Information Extraction with Multi-head Attention
Enhanced Graph Convolutional Network [9.227487525657901]
本稿では,バイオメディカルテキストと非構造化医療報告から関係を抽出するハイブリッドニューラルネットワークであるバイオメディカル情報抽出を提案する。
本研究は,2つの主要な生医学的関係抽出タスク,化学物質とタンパク質の相互作用,およびクロスホスピタル・パン・カンノロジー報告コーパスについて検討した。
論文 参考訳(メタデータ) (2021-10-26T13:19:28Z) - Neural networks for Anatomical Therapeutic Chemical (ATC) [83.73971067918333]
両方向の長期記憶ネットワーク(BiLSTM)から抽出された集合を含む、特徴の異なるセットで訓練された複数の複数ラベル分類器を組み合わせることを提案する。
実験はこのアプローチのパワーを実証し、文献で報告された最良の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-01-22T19:49:47Z) - Extracting a Knowledge Base of Mechanisms from COVID-19 Papers [50.17242035034729]
我々はメカニズムの知識ベース(KB)の構築を追求する。
我々は、妥当性と幅のバランスをとる広範で統一されたスキーマを開発する。
実験は、新型コロナウイルスの文献に関する学際的な科学的検索を支援するためのKBの有用性を実証する。
論文 参考訳(メタデータ) (2020-10-08T07:54:14Z) - Data Mining in Clinical Trial Text: Transformers for Classification and
Question Answering Tasks [2.127049691404299]
本研究は,医学的テキストに基づくエビデンス合成に自然言語処理の進歩を適用した。
主な焦点は、Population、Intervention、Comparator、Outcome(PICO)フレームワークを通じて特徴づけられる情報である。
トランスフォーマーに基づく最近のニューラルネットワークアーキテクチャは、トランスファーラーニングの能力を示し、下流の自然言語処理タスクのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-01-30T11:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。