論文の概要: SuMe: A Dataset Towards Summarizing Biomedical Mechanisms
- arxiv url: http://arxiv.org/abs/2205.04652v1
- Date: Tue, 10 May 2022 03:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 20:38:05.057093
- Title: SuMe: A Dataset Towards Summarizing Biomedical Mechanisms
- Title(参考訳): SuMe: バイオメディカルメカニズムの要約に向けたデータセット
- Authors: Mohaddeseh Bastan, Nishant Shankar, Mihai Surdeanu, and Niranjan
Balasubramanian
- Abstract要約: バイオメディカルメカニズムの要約タスクを導入する。
生物医学的な研究は、ある物質(例えば、タンパク質や化学物質)が生物学的文脈において他の物質にどのように影響するかのメカニズムをしばしば研究する。
我々はこの構造を利用して要約タスクを作成し、入力は抽象的な文と主エンティティの集合であり、出力は機構を要約する関係と文を含む。
- 参考スコア(独自算出の注目度): 28.115944109646314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can language models read biomedical texts and explain the biomedical
mechanisms discussed? In this work we introduce a biomedical mechanism
summarization task. Biomedical studies often investigate the mechanisms behind
how one entity (e.g., a protein or a chemical) affects another in a biological
context. The abstracts of these publications often include a focused set of
sentences that present relevant supporting statements regarding such
relationships, associated experimental evidence, and a concluding sentence that
summarizes the mechanism underlying the relationship. We leverage this
structure and create a summarization task, where the input is a collection of
sentences and the main entities in an abstract, and the output includes the
relationship and a sentence that summarizes the mechanism. Using a small amount
of manually labeled mechanism sentences, we train a mechanism sentence
classifier to filter a large biomedical abstract collection and create a
summarization dataset with 22k instances. We also introduce conclusion sentence
generation as a pretraining task with 611k instances. We benchmark the
performance of large bio-domain language models. We find that while the
pretraining task help improves performance, the best model produces acceptable
mechanism outputs in only 32% of the instances, which shows the task presents
significant challenges in biomedical language understanding and summarization.
- Abstract(参考訳): 言語モデルは生物医学的テキストを読み、議論される生体医学的メカニズムを説明することができるか?
本稿では,生物医療機構の要約タスクを紹介する。
生物医学的な研究は、ある物質(例えば、タンパク質や化学物質)が生物学的文脈において他の物質にどのように影響するかのメカニズムをしばしば研究する。
これらの出版物の要約には、しばしばそのような関係に関する関連する支持言明を提示する集中した一連の文、関連する実験的な証拠、および関係の基礎となるメカニズムを要約する結論付け文が含まれる。
我々はこの構造を利用して要約タスクを作成し、入力は抽象的な文と主エンティティの集合であり、出力は機構を要約する関係と文を含む。
少量の手動ラベル付き機構文を用いて,機構文分類器を訓練し,大規模な生体医学的抽象コレクションをフィルタリングし,22kインスタンスの要約データセットを作成する。
また,611kインスタンスの事前学習タスクとして結論文生成を導入する。
大規模生物ドメイン言語モデルの性能をベンチマークする。
事前学習タスクは性能向上に役立ちながら,最高のモデルでは32%のインスタンスで許容可能なメカニズムの出力を生成しており,これは生物医学的言語理解と要約において重要な課題であることを示している。
- 全文 参考訳へのリンク
関連論文リスト
- Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - An Empirical Study on Relation Extraction in the Biomedical Domain [0.0]
文レベルの関係抽出と文書レベルの関係抽出について検討し、いくつかのベンチマークデータセット上で最先端の手法を実行する。
以上の結果から,(1)現行の文書レベルの関係抽出手法は高い一般化能力を有し,(2)既存の手法では,バイオメディシンのモデル微調整に大量のラベル付きデータを必要とすることがわかった。
論文 参考訳(メタデータ) (2021-12-11T03:36:38Z) - BioIE: Biomedical Information Extraction with Multi-head Attention
Enhanced Graph Convolutional Network [9.227487525657901]
本稿では,バイオメディカルテキストと非構造化医療報告から関係を抽出するハイブリッドニューラルネットワークであるバイオメディカル情報抽出を提案する。
本研究は,2つの主要な生医学的関係抽出タスク,化学物質とタンパク質の相互作用,およびクロスホスピタル・パン・カンノロジー報告コーパスについて検討した。
論文 参考訳(メタデータ) (2021-10-26T13:19:28Z) - Slot Filling for Biomedical Information Extraction [0.5330240017302619]
バイオメディカルIEの課題に対してスロットフィリングアプローチを提案する。
我々は、トランフォーマベースのバイエンコーダDense Passage RetrievalをTransformerベースのリーダーモデルと結合する提案パラダイムに従う。
論文 参考訳(メタデータ) (2021-09-17T14:16:00Z) - Biomedical Interpretable Entity Representations [40.6095537182194]
事前訓練された言語モデルは、エンティティ中心のNLPタスクに強力なパフォーマンスを提供する密度の高いエンティティ表現を誘導する。
これは、バイオメディシンのような重要な領域における取り込みをモデル化するための障壁となる。
我々は、バイオメディカルテキストの大規模なコーパスから、新しいエンティティ型システムとトレーニングセットを作成する。
論文 参考訳(メタデータ) (2021-06-17T13:52:10Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - Generalized Organ Segmentation by Imitating One-shot Reasoning using
Anatomical Correlation [55.1248480381153]
そこで我々は,アノテーション付きオルガンクラスから一般化されたオルガン概念を学習し,その概念を未知のクラスに転送するOrganNetを提案する。
そこで,OrganNetは臓器形態の幅広い変化に効果的に抵抗でき,一発分節タスクで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-30T13:41:12Z) - Neural networks for Anatomical Therapeutic Chemical (ATC) [83.73971067918333]
両方向の長期記憶ネットワーク(BiLSTM)から抽出された集合を含む、特徴の異なるセットで訓練された複数の複数ラベル分類器を組み合わせることを提案する。
実験はこのアプローチのパワーを実証し、文献で報告された最良の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-01-22T19:49:47Z) - Unifying Relational Sentence Generation and Retrieval for Medical Image
Report Composition [142.42920413017163]
現在の手法は、個々のケースのデータセットバイアスにより、しばしば最も一般的な文を生成する。
テンプレート検索と文生成を一体化し、共通およびまれな異常に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-09T04:33:27Z) - Automated Lay Language Summarization of Biomedical Scientific Reviews [16.01452242066412]
健康リテラシーは適切な健康判断と治療結果の確保において重要な要素として浮上している。
医療用語とこのドメインの専門言語の複雑な構造は、健康情報を解釈するのが特に困難にします。
本稿では,生物医学的レビューの要約を自動生成する新しい課題について紹介する。
論文 参考訳(メタデータ) (2020-12-23T10:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。