論文の概要: Unsupervised Pre-training for Biomedical Question Answering
- arxiv url: http://arxiv.org/abs/2009.12952v1
- Date: Sun, 27 Sep 2020 21:07:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 03:34:15.980681
- Title: Unsupervised Pre-training for Biomedical Question Answering
- Title(参考訳): バイオメディカル質問応答のための教師なし事前学習
- Authors: Vaishnavi Kommaraju, Karthick Gunasekaran, Kun Li, Trapit Bansal,
Andrew McCallum, Ivana Williams, Ana-Maria Istrate
- Abstract要約: バイオメディカル・エンティティの文脈における推論を目的としたラベルなしデータから,新たな事前学習タスクを導入する。
実験の結果,提案した事前学習課題におけるBioBERTの事前学習が性能を著しく向上させ,第7回BioASQタスク7b-Phase Bの課題よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 32.525495687236194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the suitability of unsupervised representation learning methods on
biomedical text -- BioBERT, SciBERT, and BioSentVec -- for biomedical question
answering. To further improve unsupervised representations for biomedical QA,
we introduce a new pre-training task from unlabeled data designed to reason
about biomedical entities in the context. Our pre-training method consists of
corrupting a given context by randomly replacing some mention of a biomedical
entity with a random entity mention and then querying the model with the
correct entity mention in order to locate the corrupted part of the context.
This de-noising task enables the model to learn good representations from
abundant, unlabeled biomedical text that helps QA tasks and minimizes the
train-test mismatch between the pre-training task and the downstream QA tasks
by requiring the model to predict spans. Our experiments show that pre-training
BioBERT on the proposed pre-training task significantly boosts performance and
outperforms the previous best model from the 7th BioASQ Task 7b-Phase B
challenge.
- Abstract(参考訳): バイオメディカルテキスト(BioBERT,SciBERT,BioSentVec)を用いた非教師なし表現学習法のバイオメディカル質問応答への適用性を検討した。
バイオメディカルQAの教師なし表現をさらに改善するために,バイオメディカル・エンティティの文脈における推論を目的としたラベルなしデータから,新たな事前学習タスクを導入する。
我々の事前学習方法は、バイオメディカルエンティティの言及をランダムなエンティティ参照にランダムに置き換えて、そのコンテキストの破損した部分を見つけるために、正しいエンティティ参照でモデルをクエリすることで、所定のコンテキストを破損させる。
このデノイズ化タスクは、トレーニング前のタスクと下流のQAタスク間の列車テストミスマッチを最小限に抑え、モデルをスパンを予測することを要求する、豊富なラベルなしのバイオメディカルテキストから良い表現を学習することを可能にする。
実験の結果,提案した事前学習課題におけるBioBERTの事前学習が性能を著しく向上させ,第7回BioASQタスク7b-Phase Bの課題よりも優れていた。
関連論文リスト
- BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers [48.21255861863282]
BMRetrieverは、バイオメディカル検索を強化するための一連の密集したレトリバーである。
BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍まで上回っている。
論文 参考訳(メタデータ) (2024-04-29T05:40:08Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - BIOptimus: Pre-training an Optimal Biomedical Language Model with
Curriculum Learning for Named Entity Recognition [0.0]
大規模コーパス上での自己教師型設定で事前訓練された言語モデル(LM)を用いることで,ラベルデータに制限があるという問題に対処できる。
最近のバイオメディカル言語処理の研究は、多くのバイオメディカルLMを事前訓練した。
本稿では, バイオメディカル LM をスクラッチから事前訓練し, 継続的に事前訓練するなど, 様々な事前訓練方法を検討することを目的とする。
論文 参考訳(メタデータ) (2023-08-16T18:48:01Z) - Enhancing Biomedical Text Summarization and Question-Answering: On the
Utility of Domain-Specific Pre-Training [10.267057557137665]
我々は、適切なモデルアーキテクチャを特定し、それを汎用ドメイン事前トレーニングの利点を示し、タスク固有の微調整を行う。
以上の結果から,ドメイン固有のバイオメディカルテキスト生成タスクにおいて,ドメイン固有の事前学習を伴わない大規模言語モデルが有意なエッジを持つ可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-10T08:32:45Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Slot Filling for Biomedical Information Extraction [0.5330240017302619]
バイオメディカルIEの課題に対してスロットフィリングアプローチを提案する。
我々は、トランフォーマベースのバイエンコーダDense Passage RetrievalをTransformerベースのリーダーモデルと結合する提案パラダイムに従う。
論文 参考訳(メタデータ) (2021-09-17T14:16:00Z) - An Experimental Evaluation of Transformer-based Language Models in the
Biomedical Domain [0.984441002699829]
本稿では,BioBERTの複製実験と,バイオメディカル領域における事前学習と微調整について概説する。
また、下流の生物医学的NLPタスクにおけるドメイン固有およびドメイン非依存の事前訓練モデルの有効性についても検討する。
論文 参考訳(メタデータ) (2020-12-31T03:09:38Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Transferability of Natural Language Inference to Biomedical Question
Answering [17.38537039378825]
生物医学的質問応答(QA)への自然言語推論(NLI)の知識伝達にBioBERTを適用することに注力する。
NLIデータセットでトレーニングされたBioBERTは、Yes/No(+5.59%)、Factoid(+0.53%)、List type(+13.58%)でより良いパフォーマンスを得る。
第8回 BioASQ Challenge (Phase B) において, 良好に機能するシーケンシャルトランスファー学習法を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。