論文の概要: Large Language Models, scientific knowledge and factuality: A systematic
analysis in antibiotic discovery
- arxiv url: http://arxiv.org/abs/2305.17819v2
- Date: Tue, 5 Dec 2023 09:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 20:08:15.500124
- Title: Large Language Models, scientific knowledge and factuality: A systematic
analysis in antibiotic discovery
- Title(参考訳): 大規模言語モデル, 科学的知識, 事実性: 抗生物質発見の体系的分析
- Authors: Magdalena Wysocka, Oskar Wysocki, Maxime Delmas, Vincent Mutel, Andre
Freitas
- Abstract要約: 本研究では,生物医学的背景知識と対話するための大規模言語モデルの可能性を検討する。
化学化合物定義生成と化学化合物・ファングス関係決定の2つのプロンプトベースタスクにおいて、最先端の10のモデルが試験される。
その結果、最近のモデルでは流布率が改善されているが、実際の精度は依然として低く、表現過剰な実体に偏っていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Inferring over and extracting information from Large Language Models (LLMs)
trained on a large corpus of scientific literature can potentially drive a new
era in biomedical research, reducing the barriers for accessing existing
medical evidence. This work examines the potential of LLMs for dialoguing with
biomedical background knowledge, using the context of antibiotic discovery. The
systematic analysis is applied to ten state-of-the-art models, from models
specialised on biomedical scientific corpora to general models such as ChatGPT,
GPT-4 and Llama 2 in two prompting-based tasks: chemical compound definition
generation and chemical compound-fungus relation determination. The work
provides a systematic assessment on the ability of LLMs to encode and express
these relations, verifying for fluency, prompt-alignment, semantic coherence,
factual knowledge and specificity of generated responses. Results show that
while recent models have improved in fluency, factual accuracy is still low and
models are biased towards over-represented entities. The ability of LLMs to
serve as biomedical knowledge bases is questioned, and the need for additional
systematic evaluation frameworks is highlighted. The best performing GPT-4
produced a factual definition for 70% of chemical compounds and 43.6% factual
relations to fungi, whereas the best open source model BioGPT-large 30% of the
compounds and 30% of the relations for the best-performing prompt. The results
show that while LLMs are currently not fit for purpose to be used as biomedical
factual knowledge bases, there is a promising emerging property in the
direction of factuality as the models become domain specialised, scale-up in
size and level of human feedback.
- Abstract(参考訳): 大規模言語モデル(LLM)から科学文献の大規模なコーパスに訓練された情報を推測して抽出することは、生体医学研究の新しい時代を招き、既存の医学的証拠にアクセスする障壁を減らせる可能性がある。
本研究は,生物医学的背景知識と対話する LLM の可能性について,抗生物質発見の文脈を用いて検討する。
生物医学的なコーパスを専門とするモデルからchatgpt, gpt-4, llama 2などの一般的なモデルまで, 化学化合物定義生成と化合物-真菌関係決定の2つの課題において, 体系的な分析を行った。
この研究は、LLMがこれらの関係をエンコードし表現する能力についての体系的な評価を提供し、流布、迅速な調整、セマンティック・コヒーレンス、事実的知識、生成された応答の特異性を検証する。
その結果,近年のモデルでは流動性が向上しているが,事実的正確性は依然として低く,過度に表現されたエンティティに偏っていることがわかった。
LLMが生物医学的知識基盤として機能する能力は疑問視され、新たな体系的評価フレームワークの必要性が強調される。
最高性能のGPT-4は70%の化合物と43.6%のキノコとの事実関係を、最高のオープンソースモデルであるBioGPTは30%の化合物を、最も優れたプロンプトの30%を生産した。
その結果, LLMは, 現在, バイオメディカルな事実知識基盤としての利用には適していないものの, モデルがドメインに特化し, サイズ, フィードバックのレベルが上がるにつれて, 現実性に有望な新規性があることが示唆された。
関連論文リスト
- An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Graph-Based Retriever Captures the Long Tail of Biomedical Knowledge [2.2814097119704058]
大規模言語モデル(LLM)は、膨大な知識を要約して提示することで、情報の検索方法を変えつつある。
LLMはトレーニングセットから最も頻繁に見られる情報を強調し、まれな情報を無視する傾向があります。
本稿では,これらのクラスタをダウンサンプリングし,情報過負荷問題を緩和するために知識グラフを活用する新しい情報検索手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:31:11Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - High-throughput Biomedical Relation Extraction for Semi-Structured Web
Articles Empowered by Large Language Models [2.323261444126253]
関係抽出タスクをChatGPTのような大規模言語モデルの単純なバイナリ分類問題として定式化する。
本手法は,主タイトルをテールエンティティとして指定した半構造化ウェブ記事に適合する。
長さのコンテンツはテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
論文 参考訳(メタデータ) (2023-12-13T16:43:41Z) - Tertiary Lymphoid Structures Generation through Graph-based Diffusion [54.37503714313661]
本研究では,最先端のグラフベース拡散モデルを用いて生物学的に意味のある細胞グラフを生成する。
本研究では, グラフ拡散モデルを用いて, 3次リンパ構造(TLS)の分布を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-10-10T14:37:17Z) - Exploring the In-context Learning Ability of Large Language Model for
Biomedical Concept Linking [4.8882241537236455]
本研究では,生物医学的概念リンクのための大規模モデルのコンテキスト内学習機能を活用する手法について検討する。
提案手法は2段階のレトリーブ・アンド・ランク・フレームワークを採用する。
BC5CDRの病体正規化では90.%、化学体正規化では94.7%の精度を達成した。
論文 参考訳(メタデータ) (2023-07-03T16:19:50Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Machine Learning in Nano-Scale Biomedical Engineering [77.75587007080894]
ナノスケールバイオメディカルエンジニアリングにおける機械学習の利用に関する既存の研究について概説する。
ML問題として定式化できる主な課題は、3つの主要なカテゴリに分類される。
提示された方法論のそれぞれについて、その原則、応用、制限に特に重点を置いている。
論文 参考訳(メタデータ) (2020-08-05T15:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。