Fugu-MT 論文翻訳(概要): Large Language Models, scientific knowledge and factuality: A systematic analysis in antibiotic discovery

論文の概要: Large Language Models, scientific knowledge and factuality: A systematic analysis in antibiotic discovery

arxiv url: http://arxiv.org/abs/2305.17819v2
Date: Tue, 5 Dec 2023 09:51:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 20:08:15.500124
Title: Large Language Models, scientific knowledge and factuality: A systematic analysis in antibiotic discovery
Title（参考訳）: 大規模言語モデル, 科学的知識, 事実性: 抗生物質発見の体系的分析
Authors: Magdalena Wysocka, Oskar Wysocki, Maxime Delmas, Vincent Mutel, Andre Freitas
Abstract要約: 本研究では,生物医学的背景知識と対話するための大規模言語モデルの可能性を検討する。化学化合物定義生成と化学化合物・ファングス関係決定の2つのプロンプトベースタスクにおいて、最先端の10のモデルが試験される。その結果、最近のモデルでは流布率が改善されているが、実際の精度は依然として低く、表現過剰な実体に偏っていることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Inferring over and extracting information from Large Language Models (LLMs) trained on a large corpus of scientific literature can potentially drive a new era in biomedical research, reducing the barriers for accessing existing medical evidence. This work examines the potential of LLMs for dialoguing with biomedical background knowledge, using the context of antibiotic discovery. The systematic analysis is applied to ten state-of-the-art models, from models specialised on biomedical scientific corpora to general models such as ChatGPT, GPT-4 and Llama 2 in two prompting-based tasks: chemical compound definition generation and chemical compound-fungus relation determination. The work provides a systematic assessment on the ability of LLMs to encode and express these relations, verifying for fluency, prompt-alignment, semantic coherence, factual knowledge and specificity of generated responses. Results show that while recent models have improved in fluency, factual accuracy is still low and models are biased towards over-represented entities. The ability of LLMs to serve as biomedical knowledge bases is questioned, and the need for additional systematic evaluation frameworks is highlighted. The best performing GPT-4 produced a factual definition for 70% of chemical compounds and 43.6% factual relations to fungi, whereas the best open source model BioGPT-large 30% of the compounds and 30% of the relations for the best-performing prompt. The results show that while LLMs are currently not fit for purpose to be used as biomedical factual knowledge bases, there is a promising emerging property in the direction of factuality as the models become domain specialised, scale-up in size and level of human feedback.
Abstract（参考訳）: 大規模言語モデル(LLM)から科学文献の大規模なコーパスに訓練された情報を推測して抽出することは、生体医学研究の新しい時代を招き、既存の医学的証拠にアクセスする障壁を減らせる可能性がある。本研究は,生物医学的背景知識と対話する LLM の可能性について,抗生物質発見の文脈を用いて検討する。生物医学的なコーパスを専門とするモデルからchatgpt, gpt-4, llama 2などの一般的なモデルまで, 化学化合物定義生成と化合物-真菌関係決定の2つの課題において, 体系的な分析を行った。この研究は、LLMがこれらの関係をエンコードし表現する能力についての体系的な評価を提供し、流布、迅速な調整、セマンティック・コヒーレンス、事実的知識、生成された応答の特異性を検証する。その結果,近年のモデルでは流動性が向上しているが,事実的正確性は依然として低く,過度に表現されたエンティティに偏っていることがわかった。 LLMが生物医学的知識基盤として機能する能力は疑問視され、新たな体系的評価フレームワークの必要性が強調される。最高性能のGPT-4は70%の化合物と43.6%のキノコとの事実関係を、最高のオープンソースモデルであるBioGPTは30%の化合物を、最も優れたプロンプトの30%を生産した。その結果, LLMは, 現在, バイオメディカルな事実知識基盤としての利用には適していないものの, モデルがドメインに特化し, サイズ, フィードバックのレベルが上がるにつれて, 現実性に有望な新規性があることが示唆された。

関連論文リスト

Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。本稿は、この新興分野に関する最初の体系的なレビューを提供する。本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文参考訳（メタデータ） (2025-08-01T14:41:31Z)
Towards Artificial Intelligence Research Assistant for Expert-Involved Learning [64.7438151207189]
大規模言語モデル (LLMs) と大規模多モードモデル (LMMs) は科学研究における変革的ツールとして登場している。 textbfExpert-involved textbfLearning (ARIEL)のためのtextbfARtificial textbfIntelligence Research Assistantを提案する。
論文参考訳（メタデータ） (2025-05-03T14:21:48Z)
m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training [8.238980609871042]
本稿では, バイオメディカルトレーニングに適した, 知識駆動型多エージェント・フレームワークを提案する。我々のアプローチは協調的なマルチエージェントアーキテクチャであり、それぞれがメディカル・サブジェクト・ヘッダー(MeSH)階層によってガイドされ、自律的に高品質なデータを抽出し、合成し、自己評価するための協調作業を行う。
論文参考訳（メタデータ） (2025-04-28T08:18:24Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文参考訳（メタデータ） (2025-01-25T07:20:44Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。 MIMIC-IIIでは最大10.8～15.0%、MIMIC-IVでは12.6～12.7%である。
論文参考訳（メタデータ） (2024-10-06T18:46:28Z)
Diagnostic Reasoning in Natural Language: Computational Model and Application [68.47402386668846]
言語基底タスク(NL-DAR)の文脈における診断誘導推論(DAR)について検討する。パール構造因果モデルに基づくNL-DARの新しいモデリングフレームワークを提案する。得られたデータセットを用いて,NL-DARにおける人間の意思決定過程を解析する。
論文参考訳（メタデータ） (2024-09-09T06:55:37Z)
LLMs are not Zero-Shot Reasoners for Biomedical Information Extraction [13.965777046473885]
大規模言語モデル(LLM)は、医療分野のアプリケーションにますます採用されている。 LLMがバイオメディカル領域で伝統的に追求されるタスクでどの程度うまく機能するかは不明である。
論文参考訳（メタデータ） (2024-08-22T09:37:40Z)
Large Language Models as Biomedical Hypothesis Generators: A Comprehensive Evaluation [15.495976478018264]
大規模言語モデル(LLM)は、知識相互作用に革命をもたらす有望なツールとして登場した。バイオメディカル文献から背景と仮説のペアのデータセットを構築し、トレーニング、観察、および見えないテストセットに分割する。最上位モデルの仮説生成能力を、ゼロショット、少数ショット、微調整設定で評価する。
論文参考訳（メタデータ） (2024-07-12T02:55:13Z)
M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering [14.198330378235632]
我々は,3つのジェネラリストと3つの専門的なバイオメディカルサブドメインにおいて,22のデータセットに関する大規模な実験研究を行うために,複数選択と抽象質問応答を用いた。 15個のLLMの性能の多面的解析により、リコールや理解の向上につながる命令チューニングなどの成功要因が明らかになった。最近提案されたドメイン適応モデルには十分な知識が欠如している可能性があるが、収集した医療知識データセットを直接微調整することは、奨励的な結果を示している。我々は、必要な知識を単に思い出し、提示された知識と統合するモデルの能力の間に大きなギャップがあることを明らかにする、スキル指向手動エラー解析で定量的結果を補完する。
論文参考訳（メタデータ） (2024-06-06T02:43:21Z)
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文参考訳（メタデータ） (2023-12-21T14:26:57Z)
Customizing Large Language Models for Business Context: Framework and Experiments [4.922554372855655]
大規模言語モデル (LLM) は情報システムにおけるデザイン科学の新しい時代を支えてきた。我々は,LLMを一般的なビジネスコンテキストにカスタマイズするための新しいフレームワークを提案し,テストする。医療相談の文脈で提案した枠組みをインスタンス化する。
論文参考訳（メタデータ） (2023-12-15T21:42:19Z)
Exploring the Cognitive Knowledge Structure of Large Language Models: An Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文参考訳（メタデータ） (2023-10-12T09:55:45Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。