論文の概要: OntologyRAG: Better and Faster Biomedical Code Mapping with Retrieval-Augmented Generation (RAG) Leveraging Ontology Knowledge Graphs and Large Language Models
- arxiv url: http://arxiv.org/abs/2502.18992v1
- Date: Wed, 26 Feb 2025 09:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:55:23.095179
- Title: OntologyRAG: Better and Faster Biomedical Code Mapping with Retrieval-Augmented Generation (RAG) Leveraging Ontology Knowledge Graphs and Large Language Models
- Title(参考訳): OntologyRAG: 検索型生成(RAG)を利用したより高速なバイオメディカルコードマッピング
- Authors: Hui Feng, Yuntzu Yin, Emiliano Reynares, Jay Nanavati,
- Abstract要約: In-context-learning representations のための検索拡張生成(RAG)法である OntologyRAG を開発した。
我々のソリューションはLLMを知識グラフとマッピングして質問を処理します。
私たちのソリューションでは、標準プロセスで知識グラフを更新することで、オントロジーの更新を反映できるため、LMを再トレーニングする必要はありません。
- 参考スコア(独自算出の注目度): 1.2941187430993801
- License:
- Abstract: Biomedical ontologies, which comprehensively define concepts and relations for biomedical entities, are crucial for structuring and formalizing domain-specific information representations. Biomedical code mapping identifies similarity or equivalence between concepts from different ontologies. Obtaining high-quality mapping usually relies on automatic generation of unrefined mapping with ontology domain fine-tuned language models (LMs), followed by manual selections or corrections by coding experts who have extensive domain expertise and familiarity with ontology schemas. The LMs usually provide unrefined code mapping suggestions as a list of candidates without reasoning or supporting evidence, hence coding experts still need to verify each suggested candidate against ontology sources to pick the best matches. This is also a recurring task as ontology sources are updated regularly to incorporate new research findings. Consequently, the need of regular LM retraining and manual refinement make code mapping time-consuming and labour intensive. In this work, we created OntologyRAG, an ontology-enhanced retrieval-augmented generation (RAG) method that leverages the inductive biases from ontological knowledge graphs for in-context-learning (ICL) in large language models (LLMs). Our solution grounds LLMs to knowledge graphs with unrefined mappings between ontologies and processes questions by generating an interpretable set of results that include prediction rational with mapping proximity assessment. Our solution doesn't require re-training LMs, as all ontology updates could be reflected by updating the knowledge graphs with a standard process. Evaluation results on a self-curated gold dataset show promises of using our method to enable coding experts to achieve better and faster code mapping. The code is available at https://github.com/iqvianlp/ontologyRAG.
- Abstract(参考訳): 生物医学的実体の概念と関係を包括的に定義する生物医学的オントロジーは、ドメイン固有の情報表現の構造化と形式化に不可欠である。
バイオメディカルコードマッピングは、異なるオントロジーの概念間の類似性や等価性を識別する。
高品質なマッピングを実現するには、通常、オントロジードメインの微調整言語モデル(LM)による未精細マッピングの自動生成に頼り、それに続いて、広範なドメインの専門知識とオントロジースキーマに精通しているコーディング専門家による手作業による選択や修正が続く。
LMは通常、推論や証拠を裏付けることなく、候補のリストとして未定義のコードマッピング提案を提供するため、コーディングの専門家は、最適なマッチを選択するために、提案された各候補をオントロジーソースに対して検証する必要がある。
オントロジーの情報源が定期的に更新され、新たな研究結果が組み込まれているため、これは繰り返し行われる課題である。
そのため、通常のLM再訓練や手作業による改善の必要性により、コードマッピングの時間と労力の集中化が図られる。
本研究では,大規模言語モデル (LLMs) における文脈内学習 (ICL) のための存在論的知識グラフからの帰納バイアスを利用する,オントロジー強化検索拡張生成(RAG)手法であるOntologyRAGを開発した。
我々の解は, オントロジーとプロセスの問合せの間に未定義のマッピングを持つ知識グラフに LLM を基礎付け, マッピング近接評価を伴う有理予測を含む解釈可能な結果の集合を生成する。
私たちのソリューションでは、標準プロセスで知識グラフを更新することで、オントロジーの更新を反映できるため、LMを再トレーニングする必要はありません。
自己計算した金のデータセットの評価結果は,コーディングの専門家がより高速なコードマッピングを実現するために,我々の手法を使用するという約束を示している。
コードはhttps://github.com/iqvianlp/ontologyRAGで公開されている。
関連論文リスト
- Context-Augmented Code Generation Using Programming Knowledge Graphs [0.0]
大きな言語モデル(LLM)とコード-LLM(CLLM)は、困難で複雑な問題に対処する際にしばしば困難に直面します。
本稿では,プログラミング知識グラフ(PKG)を利用して,コードの意味的表現と検索を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:35:41Z) - Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models [18.984165679347026]
Self-BioRAGは、説明文の生成、ドメイン固有の文書の検索、生成したレスポンスの自己参照を専門とする、バイオメディカルテキストに信頼できるフレームワークである。
84kのバイオメディカル・インストラクション・セットを用いて、カスタマイズされた反射トークンで生成された説明を評価できるセルフビオRAGを訓練する。
論文 参考訳(メタデータ) (2024-01-27T02:29:42Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - MapperGPT: Large Language Models for Linking and Mapping Entities [1.5340902251924438]
MapperGPTは、大規模言語モデルを用いて、マッピングを後処理のステップとしてレビューし、洗練するアプローチである。
ハイリコール法と組み合わせることで,MapperGPTは精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-10-05T16:43:04Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - HiPrompt: Few-Shot Biomedical Knowledge Fusion via Hierarchy-Oriented
Prompting [33.1455954220194]
HiPromptは、監督効率の良い知識融合フレームワークである。
階層指向のプロンプトを通じて、大規模言語モデルの数発の推論能力を引き出す。
収集したKG-Hi-BKFベンチマークデータセットの実験的結果は、HiPromptの有効性を示している。
論文 参考訳(メタデータ) (2023-04-12T16:54:26Z) - Towards Ontology Reshaping for KG Generation with User-in-the-Loop:
Applied to Bosch Welding [18.83458273005337]
知識グラフ(KG)は幅広い用途で使われている。
KG生成の自動化は、産業におけるデータ量と多様性のために非常に望ましい。
論文 参考訳(メタデータ) (2022-09-22T14:59:13Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。