論文の概要: How Well Do LLMs Understand Drug Mechanisms? A Knowledge + Reasoning Evaluation Dataset
- arxiv url: http://arxiv.org/abs/2511.06418v1
- Date: Sun, 09 Nov 2025 15:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.933438
- Title: How Well Do LLMs Understand Drug Mechanisms? A Knowledge + Reasoning Evaluation Dataset
- Title(参考訳): LLMは薬物のメカニズムをいかに理解しているか? : 知識と推論による評価データセット
- Authors: Sunil Mohan, Theofanis Karaletsos,
- Abstract要約: 事前訓練された大規模言語モデル(LLM)への関心が高まっている2つの科学分野は、薬物開発/再調達とパーソナライズド医療である。
我々は、既知のメカニズムの事実知識と、それらについて新たな状況下での推論能力の両方に基づいてLLMを評価するデータセットを提案する。
O4-miniはOpenAIの4o, o3, o3-miniモデルより優れており、最近の小型Qwen3-4B思考モデルはo4-miniのパフォーマンスとよく一致している。
- 参考スコア(独自算出の注目度): 5.366017422547988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two scientific fields showing increasing interest in pre-trained large language models (LLMs) are drug development / repurposing, and personalized medicine. For both, LLMs have to demonstrate factual knowledge as well as a deep understanding of drug mechanisms, so they can recall and reason about relevant knowledge in novel situations. Drug mechanisms of action are described as a series of interactions between biomedical entities, which interlink into one or more chains directed from the drug to the targeted disease. Composing the effects of the interactions in a candidate chain leads to an inference about whether the drug might be useful or not for that disease. We introduce a dataset that evaluates LLMs on both factual knowledge of known mechanisms, and their ability to reason about them under novel situations, presented as counterfactuals that the models are unlikely to have seen during training. Using this dataset, we show that o4-mini outperforms the 4o, o3, and o3-mini models from OpenAI, and the recent small Qwen3-4B-thinking model closely matches o4-mini's performance, even outperforming it in some cases. We demonstrate that the open world setting for reasoning tasks, which requires the model to recall relevant knowledge, is more challenging than the closed world setting where the needed factual knowledge is provided. We also show that counterfactuals affecting internal links in the reasoning chain present a much harder task than those affecting a link from the drug mentioned in the prompt.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)への関心が高まっている2つの科学分野は、薬物開発/再調達とパーソナライズド医療である。
どちらの場合も、LLMは事実的知識と薬物機構の深い理解を証明しなければならないため、新しい状況において関連する知識を思い出し、推論することができる。
薬物の作用機構は、バイオメディカルな実体間の一連の相互作用として説明され、薬物から標的疾患への1つ以上の鎖に結合する。
候補鎖における相互作用の効果を構成することは、この薬物がその疾患に有用であるかどうかについての推論につながる。
我々は、既知のメカニズムの事実的知識と、これらを新たな状況下で推論する能力の両方に基づいてLCMを評価するデータセットを導入し、トレーニング中にモデルを目にする可能性が低いことを実証した。
このデータセットを用いて、o4-miniはOpenAIの4o、o3、o3-miniモデルよりも優れており、最近の小さなQwen3-4B思考モデルはo4-miniのパフォーマンスと密接に一致し、場合によってはそれよりも優れています。
本研究は, 推論タスクのオープン・ワールド・セッティングが, 必要な事実知識が提供されるクローズド・ワールド・セッティングよりも困難であることを実証する。
また, 推論連鎖の内的リンクに影響を及ぼす要因は, プロンプトに記載された薬物のリンクに影響を及ぼす要因よりも, はるかに困難であることが示唆された。
関連論文リスト
- Understanding New-Knowledge-Induced Factual Hallucinations in LLMs: Analysis, Solution, and Interpretation [41.83870063693278]
従来の研究では、大規模言語モデル(LLM)の微調整中に新しい知識を導入することで、既知の情報に基づいてテストした場合、誤った出力が発生することが示されている。
我々は,知識質問応答(QA)と知識推論タスクを含む,複数の知識タイプと2つのタスクタイプにわたるきめ細かい分析を行う。
特定の知識タイプがすべて新しい知識で構成されているデータセットに微調整を行うと、LLMは幻覚の傾向を著しく高める。
我々は,学習後期に少数の知識サンプルをパッチし,新しい知識による幻覚を効果的に緩和するKnownPatchを提案する。
論文 参考訳(メタデータ) (2025-11-04T14:55:24Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - DDIPrompt: Drug-Drug Interaction Event Prediction based on Graph Prompt Learning [15.69547371747469]
DDIPromptは、グラフプロンプト学習の最近の進歩に触発された革新的なソリューションである。
我々のフレームワークは、事前訓練されたモデルから本質的な知識を活用することで、これらの問題に対処することを目的としている。
2つのベンチマークデータセットに対する大規模な実験は、DDIPromptのSOTAパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-18T06:22:01Z) - Emerging Opportunities of Using Large Language Models for Translation
Between Drug Molecules and Indications [6.832024637226738]
薬物分子とそれに対応する指標を翻訳する新しい課題を提案する。
表示からの分子の生成、またはその逆は、病気のより効率的なターゲティングを可能にする。
論文 参考訳(メタデータ) (2024-02-14T21:33:13Z) - Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - On How AI Needs to Change to Advance the Science of Drug Discovery [0.0]
因果因果因果因因果因因果因因因果因因果因果因果因因果因果因果因因果因因果因因果因因果因因果因果因因因果因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因因
本稿では,因果的薬物発見を因果的推論における薬物発見の過程を基盤としたモデル作成の手法として提示する。
論文 参考訳(メタデータ) (2022-12-23T19:35:51Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。