論文の概要: Domain-Specific Pretraining for Vertical Search: Case Study on
Biomedical Literature
- arxiv url: http://arxiv.org/abs/2106.13375v1
- Date: Fri, 25 Jun 2021 01:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:00:13.559170
- Title: Domain-Specific Pretraining for Vertical Search: Case Study on
Biomedical Literature
- Title(参考訳): 垂直探索のためのドメイン特化事前学習:生物医学文献の事例研究
- Authors: Yu Wang, Jinchao Li, Tristan Naumann, Chenyan Xiong, Hao Cheng, Robert
Tinn, Cliff Wong, Naoto Usuyama, Richard Rogahn, Zhihong Shen, Yang Qin, Eric
Horvitz, Paul N. Bennett, Jianfeng Gao, Hoifung Poon
- Abstract要約: 自己教師型学習は、アノテーションのボトルネックを克服するための有望な方向として現れました。
本稿では,ドメイン固有の事前学習に基づく垂直探索手法を提案する。
我々のシステムはPubMed上で何千万もの記事にスケールでき、Microsoft Biomedical Searchとしてデプロイされている。
- 参考スコア(独自算出の注目度): 67.4680600632232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information overload is a prevalent challenge in many high-value domains. A
prominent case in point is the explosion of the biomedical literature on
COVID-19, which swelled to hundreds of thousands of papers in a matter of
months. In general, biomedical literature expands by two papers every minute,
totalling over a million new papers every year. Search in the biomedical realm,
and many other vertical domains is challenging due to the scarcity of direct
supervision from click logs. Self-supervised learning has emerged as a
promising direction to overcome the annotation bottleneck. We propose a general
approach for vertical search based on domain-specific pretraining and present a
case study for the biomedical domain. Despite being substantially simpler and
not using any relevance labels for training or development, our method performs
comparably or better than the best systems in the official TREC-COVID
evaluation, a COVID-related biomedical search competition. Using distributed
computing in modern cloud infrastructure, our system can scale to tens of
millions of articles on PubMed and has been deployed as Microsoft Biomedical
Search, a new search experience for biomedical literature:
https://aka.ms/biomedsearch.
- Abstract(参考訳): 情報過負荷は、多くの高価値ドメインにおいて一般的な課題である。
特筆すべき事例は、新型コロナウイルス(covid-19)に関する生物医学文献が爆発的に爆発し、何ヶ月にもわたって数十万の論文に膨れ上がったことだ。
概して、生物医学の文献は毎分2つの論文に拡張され、毎年100万以上の新しい論文が発行されている。
クリックログからの直接監督が不足しているため、バイオメディカル領域や多くの垂直領域での検索は困難である。
自己監督学習は、アノテーションのボトルネックを克服するための有望な方向性として現れてきた。
本稿では、ドメイン固有の事前学習に基づく垂直探索のための一般的なアプローチを提案し、バイオメディカルドメインのケーススタディを提案する。
極めてシンプルで,訓練や開発に関連ラベルを使用しないにもかかわらず,本手法は,新型コロナ関連生物医学的検索競争である公式trec-covid評価において,優れたシステムと同等かそれ以上の性能を発揮する。
現代のクラウドインフラで分散コンピューティングを使用することで、私たちのシステムはPubMed上で数千万の記事にスケールでき、Microsoft Biomedical Searchとしてデプロイされた。
関連論文リスト
- A survey of recent methods for addressing AI fairness and bias in
biomedicine [48.46929081146017]
人工知能システムは、人種や性別に基づくような社会的不平等を永続するか、偏見を示すことができる。
バイオメディカル自然言語処理 (NLP) やコンピュータビジョン (CV) の分野での様々な脱バイアス法に関する最近の論文を調査した。
我々は,2018年1月から2023年12月にかけて,複数のキーワードの組み合わせを用いて,PubMed,ACMデジタルライブラリ,IEEE Xploreに関する文献検索を行った。
バイオメディシンに応用可能な一般領域からの他の方法について検討し, バイアスに対処し, 公平性を向上する方法について検討した。
論文 参考訳(メタデータ) (2024-02-13T06:38:46Z) - MedCPT: Contrastive Pre-trained Transformers with Large-scale PubMed
Search Logs for Zero-shot Biomedical Information Retrieval [5.330363334603656]
バイオメディシンにおけるゼロショットセマンティックIRのためのコントラスト事前訓練トランスフォーマモデルであるMedCPTを紹介する。
MedCPTのトレーニングには、PubMedから2億5500万のユーザクリックログを収集しました。
MedCPTは6つのバイオメディカルIRタスクに対して,最先端の性能を新たに設定する。
論文 参考訳(メタデータ) (2023-07-02T15:11:59Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - BiomedCLIP: a multimodal biomedical foundation model pretrained from
fifteen million scientific image-text pairs [48.376109878173956]
PMC-15Mは,既存のバイオメディカル・マルチモーダル・データセットよりも2桁大きい新しいデータセットである。
PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキスト対を含んでいる。
PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モーダル基礎モデルであるBiomedCLIPを事前訓練した。
論文 参考訳(メタデータ) (2023-03-02T02:20:04Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - Multi-label classification for biomedical literature: an overview of the
BioCreative VII LitCovid Track for COVID-19 literature topic annotations [13.043042862575192]
BioCreative LitCovidのトラックは、新型コロナウイルスの文献の自動トピックアノテーションに取り組むコミュニティの努力を求めている。
データセットは3万以上の記事と手動でレビューされたトピックで構成されている。
最高パフォーマンスは0.8875、0.9181、0.9394、マクロF1スコア、マイクロF1スコア、インスタンスベースのF1スコアである。
論文 参考訳(メタデータ) (2022-04-20T20:47:55Z) - Anomaly Detection in Medical Imaging -- A Mini Review [0.8122270502556374]
本稿では,医療画像における関連異常検出論文の半発掘文献レビューを用いて,アプリケーションをクラスタリングする。
主な結果は、ラベル付きデータの必要性を減らすことで、現在の研究が主に動機付けされていることを示している。
また、脳MRI領域における多くの研究が成功し、OCTや胸部X線といったさらなる領域への応用の可能性を示している。
論文 参考訳(メタデータ) (2021-08-25T11:45:40Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Low Resource Recognition and Linking of Biomedical Concepts from a Large
Ontology [30.324906836652367]
生物医学論文のデータベースで最も有名なPubMedは、これらのアノテーションを追加するために人間のキュレーターに依存しています。
提案手法は,従来の認識/リンクとセマンティックインデックスに基づく評価において,UMLSの新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2021-01-26T06:41:12Z) - Medical Deep Learning -- A systematic Meta-Review [0.4256574128156698]
ディープラーニング(DL)はここ数年、いくつかの科学分野に影響を与えてきた。
DLは、自動運転などのタスクで最先端の結果を提供し、以前の試みを抜いた。
大量の患者の記録とデータの収集により、医療情報の自動化された信頼性の高い処理と分析が求められている。
論文 参考訳(メタデータ) (2020-10-28T11:01:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。