論文の概要: Improving Biomedical Information Retrieval with Neural Retrievers
- arxiv url: http://arxiv.org/abs/2201.07745v1
- Date: Wed, 19 Jan 2022 17:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 14:43:24.169313
- Title: Improving Biomedical Information Retrieval with Neural Retrievers
- Title(参考訳): ニューラルネットワークによる生体情報検索の改善
- Authors: Man Luo, Arindam Mitra, Tejas Gokhale, Chitta Baral
- Abstract要約: 本稿では,ニューラルネットワークモデルの学習に活用できるテンプレートベースの質問生成手法を提案する。
第2に、情報検索の下流タスクと密接に一致した2つの新しい事前学習タスクを開発する。
第3に、各コンテキストを複数のコンテキストベクトルにエンコードするPoly-DPR'モデルを導入する。
- 参考スコア(独自算出の注目度): 30.778569849542837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information retrieval (IR) is essential in search engines and dialogue
systems as well as natural language processing tasks such as open-domain
question answering. IR serve an important function in the biomedical domain,
where content and sources of scientific knowledge may evolve rapidly. Although
neural retrievers have surpassed traditional IR approaches such as TF-IDF and
BM25 in standard open-domain question answering tasks, they are still found
lacking in the biomedical domain. In this paper, we seek to improve information
retrieval (IR) using neural retrievers (NR) in the biomedical domain, and
achieve this goal using a three-pronged approach. First, to tackle the relative
lack of data in the biomedical domain, we propose a template-based question
generation method that can be leveraged to train neural retriever models.
Second, we develop two novel pre-training tasks that are closely aligned to the
downstream task of information retrieval. Third, we introduce the ``Poly-DPR''
model which encodes each context into multiple context vectors. Extensive
experiments and analysis on the BioASQ challenge suggest that our proposed
method leads to large gains over existing neural approaches and beats BM25 in
the small-corpus setting. We show that BM25 and our method can complement each
other, and a simple hybrid model leads to further gains in the large corpus
setting.
- Abstract(参考訳): 情報検索(IR)は,オープンドメイン質問応答などの自然言語処理だけでなく,検索エンジンや対話システムにも不可欠である。
IRは、科学知識の内容や源が急速に進化する生物医学領域において重要な役割を果たす。
ニューラルレトリバーは、標準のオープンドメイン質問応答タスクにおいてTF-IDFやBM25のような伝統的なIRアプローチを上回っているが、バイオメディカルドメインにはまだ欠けている。
本稿では,生物医学領域におけるニューラルレトリバー(nr)を用いた情報検索(ir)の改善を図り,その目的を3段階のアプローチで達成する。
まず, 生体医学領域におけるデータの相対的欠如に対処するために, ニューラルレトリバーモデルの学習に利用できるテンプレートベースの質問生成法を提案する。
第2に,情報検索の下流タスクと密接に連携した2つの新しい事前学習タスクを開発する。
第三に、各コンテキストを複数のコンテキストベクトルにエンコードする ``Poly-DPR'' モデルを導入する。
bioasqチャレンジに関する広範な実験と分析は、提案手法が既存の神経アプローチを大きく上回り、小体でbm25を打ち負かすことを示唆している。
bm25と提案手法が相互補完できることを示すとともに,単純なハイブリッドモデルによってコーパスの大規模化が促進されることを示す。
関連論文リスト
- BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine [19.861178160437827]
大規模言語モデル(LLM)は、バイオメディカルおよび医療分野における様々な応用のための重要なリソースとして急速に現れてきた。
textscBiomedRAGは5つのバイオメディカルNLPタスクで優れたパフォーマンスを実現している。
textscBiomedRAG は、GIT と ChemProt コーパスにおいて、マイクロF1スコアが 81.42 と 88.83 の他のトリプル抽出システムより優れている。
論文 参考訳(メタデータ) (2024-05-01T12:01:39Z) - Graph-Based Retriever Captures the Long Tail of Biomedical Knowledge [2.2814097119704058]
大規模言語モデル(LLM)は、膨大な知識を要約して提示することで、情報の検索方法を変えつつある。
LLMはトレーニングセットから最も頻繁に見られる情報を強調し、まれな情報を無視する傾向があります。
本稿では,これらのクラスタをダウンサンプリングし,情報過負荷問題を緩和するために知識グラフを活用する新しい情報検索手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:31:11Z) - Progress and Opportunities of Foundation Models in Bioinformatics [77.74411726471439]
基礎モデル(FM)は、特に深層学習の領域において、計算生物学の新しい時代に定着した。
我々の焦点は、特定の生物学的問題にFMを応用することであり、研究ニーズに適切なFMを選択するために研究コミュニティを指導することを目的としています。
データノイズ、モデル説明可能性、潜在的なバイアスなど、生物学においてFMが直面する課題と限界を分析します。
論文 参考訳(メタデータ) (2024-02-06T02:29:17Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Large Language Models for Information Retrieval: A Survey [57.7992728506871]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Neural Retriever and Go Beyond: A Thesis Proposal [1.082365064737981]
Information Retriever (IR) は、あるクエリに関連するドキュメントを大規模に検索することを目的としている。
最近のニューラルベースアルゴリズム(ニューラルレトリバーと呼ばれる)は、従来の手法の限界を緩和できるほど注目を集めている。
論文 参考訳(メタデータ) (2022-05-31T17:59:30Z) - Recognising Biomedical Names: Challenges and Solutions [9.51284672475743]
本稿では,不連続な言及を認識可能な遷移ベースNERモデルを提案する。
また、適切な事前学習データを通知する費用対効果のアプローチも開発している。
我々の貢献は、特に新しいバイオメディカル・アプリケーションが必要な場合に、明らかな実践的意味を持つ。
論文 参考訳(メタデータ) (2021-06-23T08:20:13Z) - Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-14T16:50:50Z) - Multi-Perspective Semantic Information Retrieval in the Biomedical
Domain [0.0]
情報検索(Information Retrieval、IR)とは、特定のクエリやニーズに関連するデータ(ドキュメントなど)を取得するタスクである。
現代のニューラルアプローチは、古典的なアプローチと比べて一定の利点がある。
この研究は、バイオメディカルセマンティック情報検索ドメインのいくつかの側面に貢献する。
論文 参考訳(メタデータ) (2020-07-17T21:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。