論文の概要: Large Language Models, scientific knowledge and factuality: A systematic
analysis in antibiotic discovery
- arxiv url: http://arxiv.org/abs/2305.17819v2
- Date: Tue, 5 Dec 2023 09:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 20:08:15.500124
- Title: Large Language Models, scientific knowledge and factuality: A systematic
analysis in antibiotic discovery
- Title(参考訳): 大規模言語モデル, 科学的知識, 事実性: 抗生物質発見の体系的分析
- Authors: Magdalena Wysocka, Oskar Wysocki, Maxime Delmas, Vincent Mutel, Andre
Freitas
- Abstract要約: 本研究では,生物医学的背景知識と対話するための大規模言語モデルの可能性を検討する。
化学化合物定義生成と化学化合物・ファングス関係決定の2つのプロンプトベースタスクにおいて、最先端の10のモデルが試験される。
その結果、最近のモデルでは流布率が改善されているが、実際の精度は依然として低く、表現過剰な実体に偏っていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Inferring over and extracting information from Large Language Models (LLMs)
trained on a large corpus of scientific literature can potentially drive a new
era in biomedical research, reducing the barriers for accessing existing
medical evidence. This work examines the potential of LLMs for dialoguing with
biomedical background knowledge, using the context of antibiotic discovery. The
systematic analysis is applied to ten state-of-the-art models, from models
specialised on biomedical scientific corpora to general models such as ChatGPT,
GPT-4 and Llama 2 in two prompting-based tasks: chemical compound definition
generation and chemical compound-fungus relation determination. The work
provides a systematic assessment on the ability of LLMs to encode and express
these relations, verifying for fluency, prompt-alignment, semantic coherence,
factual knowledge and specificity of generated responses. Results show that
while recent models have improved in fluency, factual accuracy is still low and
models are biased towards over-represented entities. The ability of LLMs to
serve as biomedical knowledge bases is questioned, and the need for additional
systematic evaluation frameworks is highlighted. The best performing GPT-4
produced a factual definition for 70% of chemical compounds and 43.6% factual
relations to fungi, whereas the best open source model BioGPT-large 30% of the
compounds and 30% of the relations for the best-performing prompt. The results
show that while LLMs are currently not fit for purpose to be used as biomedical
factual knowledge bases, there is a promising emerging property in the
direction of factuality as the models become domain specialised, scale-up in
size and level of human feedback.
- Abstract(参考訳): 大規模言語モデル(LLM)から科学文献の大規模なコーパスに訓練された情報を推測して抽出することは、生体医学研究の新しい時代を招き、既存の医学的証拠にアクセスする障壁を減らせる可能性がある。
本研究は,生物医学的背景知識と対話する LLM の可能性について,抗生物質発見の文脈を用いて検討する。
生物医学的なコーパスを専門とするモデルからchatgpt, gpt-4, llama 2などの一般的なモデルまで, 化学化合物定義生成と化合物-真菌関係決定の2つの課題において, 体系的な分析を行った。
この研究は、LLMがこれらの関係をエンコードし表現する能力についての体系的な評価を提供し、流布、迅速な調整、セマンティック・コヒーレンス、事実的知識、生成された応答の特異性を検証する。
その結果,近年のモデルでは流動性が向上しているが,事実的正確性は依然として低く,過度に表現されたエンティティに偏っていることがわかった。
LLMが生物医学的知識基盤として機能する能力は疑問視され、新たな体系的評価フレームワークの必要性が強調される。
最高性能のGPT-4は70%の化合物と43.6%のキノコとの事実関係を、最高のオープンソースモデルであるBioGPTは30%の化合物を、最も優れたプロンプトの30%を生産した。
その結果, LLMは, 現在, バイオメディカルな事実知識基盤としての利用には適していないものの, モデルがドメインに特化し, サイズ, フィードバックのレベルが上がるにつれて, 現実性に有望な新規性があることが示唆された。
関連論文リスト
- Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Diagnostic Reasoning in Natural Language: Computational Model and Application [68.47402386668846]
言語基底タスク(NL-DAR)の文脈における診断誘導推論(DAR)について検討する。
パール構造因果モデルに基づくNL-DARの新しいモデリングフレームワークを提案する。
得られたデータセットを用いて,NL-DARにおける人間の意思決定過程を解析する。
論文 参考訳(メタデータ) (2024-09-09T06:55:37Z) - LLMs are not Zero-Shot Reasoners for Biomedical Information Extraction [13.965777046473885]
大規模言語モデル(LLM)は、医療分野のアプリケーションにますます採用されている。
LLMがバイオメディカル領域で伝統的に追求されるタスクでどの程度うまく機能するかは不明である。
論文 参考訳(メタデータ) (2024-08-22T09:37:40Z) - Large Language Models as Biomedical Hypothesis Generators: A Comprehensive Evaluation [15.495976478018264]
大規模言語モデル(LLM)は、知識相互作用に革命をもたらす有望なツールとして登場した。
バイオメディカル文献から背景と仮説のペアのデータセットを構築し、トレーニング、観察、および見えないテストセットに分割する。
最上位モデルの仮説生成能力を、ゼロショット、少数ショット、微調整設定で評価する。
論文 参考訳(メタデータ) (2024-07-12T02:55:13Z) - M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering [14.198330378235632]
我々は,3つのジェネラリストと3つの専門的なバイオメディカルサブドメインにおいて,22のデータセットに関する大規模な実験研究を行うために,複数選択と抽象質問応答を用いた。
15個のLLMの性能の多面的解析により、リコールや理解の向上につながる命令チューニングなどの成功要因が明らかになった。
最近提案されたドメイン適応モデルには十分な知識が欠如している可能性があるが、収集した医療知識データセットを直接微調整することは、奨励的な結果を示している。
我々は、必要な知識を単に思い出し、提示された知識と統合するモデルの能力の間に大きなギャップがあることを明らかにする、スキル指向手動エラー解析で定量的結果を補完する。
論文 参考訳(メタデータ) (2024-06-06T02:43:21Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Customizing Large Language Models for Business Context: Framework and Experiments [4.922554372855655]
大規模言語モデル (LLM) は情報システムにおけるデザイン科学の新しい時代を支えてきた。
我々は,LLMを一般的なビジネスコンテキストにカスタマイズするための新しいフレームワークを提案し,テストする。
医療相談の文脈で提案した枠組みをインスタンス化する。
論文 参考訳(メタデータ) (2023-12-15T21:42:19Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。