論文の概要: Improving Medical Reasoning through Retrieval and Self-Reflection with
Retrieval-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2401.15269v1
- Date: Sat, 27 Jan 2024 02:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 19:14:26.616748
- Title: Improving Medical Reasoning through Retrieval and Self-Reflection with
Retrieval-Augmented Large Language Models
- Title(参考訳): 検索型大規模言語モデルによる検索と自己回帰による医学的推論の改善
- Authors: Minbyul Jeong, Jiwoong Sohn, Mujeen Sung, Jaewoo Kang
- Abstract要約: Self-BioRAGは、説明文の生成、ドメイン固有の文書の検索、生成したレスポンスの自己参照を専門とする、バイオメディカルテキストに信頼できるフレームワークである。
84kのバイオメディカル・インストラクション・セットを用いて、カスタマイズされた反射トークンで生成された説明を評価できるセルフビオRAGを訓練する。
- 参考スコア(独自算出の注目度): 20.738837191523007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent proprietary large language models (LLMs), such as GPT-4, have achieved
a milestone in tackling diverse challenges in the biomedical domain, ranging
from multiple-choice questions to long-form generations. To address challenges
that still cannot be handled with the encoded knowledge of LLMs, various
retrieval-augmented generation (RAG) methods have been developed by searching
documents from the knowledge corpus and appending them unconditionally or
selectively to the input of LLMs for generation. However, when applying
existing methods to different domain-specific problems, poor generalization
becomes apparent, leading to fetching incorrect documents or making inaccurate
judgments. In this paper, we introduce Self-BioRAG, a framework reliable for
biomedical text that specializes in generating explanations, retrieving
domain-specific documents, and self-reflecting generated responses. We utilize
84k filtered biomedical instruction sets to train Self-BioRAG that can assess
its generated explanations with customized reflective tokens. Our work proves
that domain-specific components, such as a retriever, domain-related document
corpus, and instruction sets are necessary for adhering to domain-related
instructions. Using three major medical question-answering benchmark datasets,
experimental results of Self-BioRAG demonstrate significant performance gains
by achieving a 7.2% absolute improvement on average over the state-of-the-art
open-foundation model with a parameter size of 7B or less. Overall, we analyze
that Self-BioRAG finds the clues in the question, retrieves relevant documents
if needed, and understands how to answer with information from retrieved
documents and encoded knowledge as a medical expert does. We release our data
and code for training our framework components and model weights (7B and 13B)
to enhance capabilities in biomedical and clinical domains.
- Abstract(参考訳): gpt-4のような最近のプロプライエタリな大規模言語モデル(llm)は、生物医学領域における様々な課題に取り組むためのマイルストーンを達成した。
LLMの符号化された知識では処理できない課題に対処するために、知識コーパスから文書を検索し、LLMの入力に無条件または選択的に付加することにより、様々な検索拡張生成法(RAG)を開発した。
しかし、既存の手法を異なるドメイン固有の問題に適用すると、一般化の貧弱さが明らかになり、不正な文書の取得や不正確な判断につながる。
本稿では, 説明文の生成, ドメイン固有文書の検索, 生成した応答の自己再生を専門とするバイオメディカルテキストに信頼性のあるフレームワークであるSelf-BioRAGを紹介する。
84kフィルタを用いたバイオメディカルインストラクションセットを用いて自己バイオラグを訓練し,その生成した説明をカスタマイズした反射トークンを用いて評価する。
本研究は,レトリバーやドメイン関連文書コーパス,命令セットなどのドメイン固有のコンポーネントが,ドメイン関連命令の付着に必要であることを示す。
3つの主要な医療質問答えベンチマークデータセットを用いて、Self-BioRAGの実験結果は、7B以下のパラメータサイズを持つ最先端のオープンバウンダレーションモデルに対して平均で7.2%の絶対的な改善を達成し、大きなパフォーマンス向上を示した。
全体として、Self-BioRAGは質問の手がかりを見つけ、必要なら関連文書を検索し、検索した文書から情報に答える方法を理解し、医療専門家としての知識を符号化する。
バイオメディカルおよび臨床領域の能力を高めるために、フレームワークコンポーネントとモデルウェイト(7Bと13B)をトレーニングするためのデータとコードをリリースする。
関連論文リスト
- To Generate or to Retrieve? On the Effectiveness of Artificial Contexts
for Medical Open-Domain Question Answering [19.554275869652315]
本稿では,医学における質問応答のための第1世代読解フレームワークであるMedGENIEについて述べる。
MedQA-USMLE, MedMCQA, MMLUについて, 最大24GB VRAMを仮定して, 実用的視点を取り入れた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-03-04T10:41:52Z) - Graph-Based Retriever Captures the Long Tail of Biomedical Knowledge [2.2814097119704058]
大規模言語モデル(LLM)は、膨大な知識を要約して提示することで、情報の検索方法を変えつつある。
LLMはトレーニングセットから最も頻繁に見られる情報を強調し、まれな情報を無視する傾向があります。
本稿では,これらのクラスタをダウンサンプリングし,情報過負荷問題を緩和するために知識グラフを活用する新しい情報検索手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:31:11Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - BELB: a Biomedical Entity Linking Benchmark [3.9648178546218817]
本研究は,本分野における最近の研究成果を概観し,生物医学的テキストマイニングのための既存のベンチマークからその課題が欠落していることを見出した。
我々は、バイオメディカルエンティティリンクベンチマークであるBELBを開発し、7つの知識ベースにリンクされた11のコーパスに統一されたフォーマットでアクセスできるようにした。
BELBを用いて、6つのルールベースのエンティティ固有システムと、事前訓練された言語モデルを活用した最近の3つのニューラルアプローチを広範囲に評価する。
論文 参考訳(メタデータ) (2023-08-22T16:05:18Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - Recent Advances in Automated Question Answering In Biomedical Domain [0.06922389632860546]
過去数十年間、知識の獲得が急増しており、その結果、バイオメディシン分野における新しい科学論文が指数関数的に増加してきた。
ドメインの専門家であっても、ドメイン内のすべての情報を追跡することは困難になっています。
商用検索エンジンの改善により、ユーザーはクエリーを入力し、クエリーに最も関連性の高いドキュメントの小さなセットを得ることができる。
これにより、ユーザが提供する自然言語の質問に対して、正確かつ正確な答えを見つけることを目的とした効率的なQAシステムの開発が必要になった。
論文 参考訳(メタデータ) (2021-11-10T20:51:29Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Boosting Low-Resource Biomedical QA via Entity-Aware Masking Strategies [25.990479833023166]
バイオメディカル質問応答(QA)は、膨大な科学文献から高品質な情報を提供する能力に注目が集まっている。
バイオメディカル・エンティティ・アウェア・マスキング(BEM)と呼ばれるシンプルなアプローチを提案する。
マスク付き言語モデルにより、ドメインを特徴づける重要なエンティティに基づいてエンティティ中心の知識を学び、それらのエンティティをLM微調整の推進に活用します。
実験結果から, バイオメディカルQAデータセットにおける最先端モデルと同等の性能を示す。
論文 参考訳(メタデータ) (2021-02-16T18:51:13Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。