論文の概要: Language Models sounds the Death Knell of Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2301.03980v1
- Date: Tue, 10 Jan 2023 14:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:28:39.092472
- Title: Language Models sounds the Death Knell of Knowledge Graphs
- Title(参考訳): 言語モデルは知識グラフの死角に聞こえる
- Authors: Kunal Suri, Atul Singh, Prakhar Mishra, Swapna Sourav Rout, Rajesh
Sabapathy
- Abstract要約: ディープラーニングに基づくNLP、特にLarge Language Models(LLM)は広く受け入れられており、多くのアプリケーションで広く使われている。
BioBERTとMed-BERTは医療分野向けに事前訓練された言語モデルである。
本稿では、知識グラフを用いることは、この領域の問題を解決する最善の解決策ではない、と論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Healthcare domain generates a lot of unstructured and semi-structured text.
Natural Language processing (NLP) has been used extensively to process this
data. Deep Learning based NLP especially Large Language Models (LLMs) such as
BERT have found broad acceptance and are used extensively for many
applications. A Language Model is a probability distribution over a word
sequence. Self-supervised Learning on a large corpus of data automatically
generates deep learning-based language models. BioBERT and Med-BERT are
language models pre-trained for the healthcare domain. Healthcare uses typical
NLP tasks such as question answering, information extraction, named entity
recognition, and search to simplify and improve processes. However, to ensure
robust application of the results, NLP practitioners need to normalize and
standardize them. One of the main ways of achieving normalization and
standardization is the use of Knowledge Graphs. A Knowledge Graph captures
concepts and their relationships for a specific domain, but their creation is
time-consuming and requires manual intervention from domain experts, which can
prove expensive. SNOMED CT (Systematized Nomenclature of Medicine -- Clinical
Terms), Unified Medical Language System (UMLS), and Gene Ontology (GO) are
popular ontologies from the healthcare domain. SNOMED CT and UMLS capture
concepts such as disease, symptoms and diagnosis and GO is the world's largest
source of information on the functions of genes. Healthcare has been dealing
with an explosion in information about different types of drugs, diseases, and
procedures. This paper argues that using Knowledge Graphs is not the best
solution for solving problems in this domain. We present experiments using LLMs
for the healthcare domain to demonstrate that language models provide the same
functionality as knowledge graphs, thereby making knowledge graphs redundant.
- Abstract(参考訳): 医療ドメインは多くの非構造化テキストと半構造化テキストを生成します。
自然言語処理(NLP)はこのデータを処理するために広く使われている。
深層学習に基づくNLP、特にBERTのような大規模言語モデル(LLM)は広く受け入れられており、多くのアプリケーションで広く使われている。
言語モデルは単語列上の確率分布である。
大量のデータに対する自己教師型学習は、ディープラーニングに基づく言語モデルを自動的に生成する。
BioBERTとMed-BERTは医療分野向けに事前訓練された言語モデルである。
ヘルスケアは、質問応答、情報抽出、名前付きエンティティ認識、検索などの典型的なNLPタスクを使用してプロセスの簡素化と改善を行っている。
しかし、結果の堅牢な適用を保証するためには、NLP実践者はそれらを標準化し標準化する必要がある。
正規化と標準化を達成する主要な方法の1つは知識グラフの利用である。
ナレッジグラフは特定のドメインの概念とその関係をキャプチャしますが、その作成には時間がかかり、ドメインの専門家による手作業による介入が必要です。
SNOMED CT (Systematized Nomenclature of Medicine -- Clinical Terms)、Unified Medical Language System (UMLS)、Gene Ontology (GO) は、医療領域から人気のオントロジーである。
SNOMED CTとUMLSは疾患、症状、診断などの概念を捉え、GOは遺伝子の機能に関する世界最大の情報源である。
医療は様々な種類の薬物、病気、手順に関する情報の爆発に対処してきた。
本稿では、知識グラフは、この領域の問題を解決する最良の解決策ではない、と論じる。
医療分野のLLMを用いて、言語モデルが知識グラフと同じ機能を提供することを示す実験を行い、知識グラフを冗長にする。
関連論文リスト
- Diagnostic Reasoning in Natural Language: Computational Model and Application [68.47402386668846]
言語基底タスク(NL-DAR)の文脈における診断誘導推論(DAR)について検討する。
パール構造因果モデルに基づくNL-DARの新しいモデリングフレームワークを提案する。
得られたデータセットを用いて,NL-DARにおける人間の意思決定過程を解析する。
論文 参考訳(メタデータ) (2024-09-09T06:55:37Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Infusing Knowledge into Large Language Models with Contextual Prompts [5.865016596356753]
入力テキスト中の文脈からプロンプトを生成することにより,知識注入のためのシンプルだが一般化可能なアプローチを提案する。
本実験は, 微調整LDMを用いて評価する手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-03T11:19:26Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T14:13:45Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Open-Ended Medical Visual Question Answering Through Prefix Tuning of
Language Models [42.360431316298204]
我々は、VQAのオープン化に重点を置いており、近年の言語モデルの発展によって、VQAを生成タスクと見なされている。
医療画像を言語モデルに適切に伝達するために,抽出した視覚的特徴を学習可能なトークンの集合にマッピングするネットワークを開発する。
我々は、Slake、OVQA、PathVQAといった主要な医療用VQAベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-03-10T15:17:22Z) - Combining Contrastive Learning and Knowledge Graph Embeddings to develop
medical word embeddings for the Italian language [0.0]
本論文は,イタリアの医療領域の未発見ニッチへの埋め込みを改良する試みである。
主な目的は、医療用語間の意味的類似性の精度を向上させることである。
イタリア語には医学的な文章や制御された語彙が欠けているため、我々は特定の解決法を開発した。
論文 参考訳(メタデータ) (2022-11-09T17:12:28Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。