Fugu-MT 論文翻訳(概要): SylloBio-NLI: Evaluating Large Language Models on Biomedical Syllogistic Reasoning

論文の概要: SylloBio-NLI: Evaluating Large Language Models on Biomedical Syllogistic Reasoning

arxiv url: http://arxiv.org/abs/2410.14399v1
Date: Fri, 18 Oct 2024 12:02:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.454612
Title: SylloBio-NLI: Evaluating Large Language Models on Biomedical Syllogistic Reasoning
Title（参考訳）: SylloBio-NLI:バイオメディカル・ソロジカル推論に基づく大規模言語モデルの評価
Authors: Magdalena Wysocka, Danilo S. Carvalho, Oskar Wysocki, Marco Valentino, Andre Freitas,
Abstract要約: SylloBio-NLIは自然言語推論のための多様なシロメトリクスを体系的にインスタンス化するフレームワークである有効結論の特定と28のシロメトリックスキーム間の証拠の抽出について,Large Language Models (LLMs) の評価を行った。バイオメディカル・シロジック推論はゼロショットLLMでは特に困難であり, 一般化したモダスポネンでは70%, 解離性シロジズムでは23%の精度が得られた。
参考スコア（独自算出の注目度）: 4.375413199937643
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Syllogistic reasoning is crucial for Natural Language Inference (NLI). This capability is particularly significant in specialized domains such as biomedicine, where it can support automatic evidence interpretation and scientific discovery. This paper presents SylloBio-NLI, a novel framework that leverages external ontologies to systematically instantiate diverse syllogistic arguments for biomedical NLI. We employ SylloBio-NLI to evaluate Large Language Models (LLMs) on identifying valid conclusions and extracting supporting evidence across 28 syllogistic schemes instantiated with human genome pathways. Extensive experiments reveal that biomedical syllogistic reasoning is particularly challenging for zero-shot LLMs, which achieve an average accuracy between 70% on generalized modus ponens and 23% on disjunctive syllogism. At the same time, we found that few-shot prompting can boost the performance of different LLMs, including Gemma (+14%) and LLama-3 (+43%). However, a deeper analysis shows that both techniques exhibit high sensitivity to superficial lexical variations, highlighting a dependency between reliability, models' architecture, and pre-training regime. Overall, our results indicate that, while in-context examples have the potential to elicit syllogistic reasoning in LLMs, existing models are still far from achieving the robustness and consistency required for safe biomedical NLI applications.
Abstract（参考訳）: ソロジック推論は自然言語推論(NLI)において重要である。この能力は、特にバイオメディシンのような専門分野において重要であり、自動的な証拠解釈と科学的発見を支援することができる。本稿では,生物医学的NLIのための多様なシロメオ論を体系的にインスタンス化するために外部オントロジーを活用する新しいフレームワークであるSylloBio-NLIを提案する。我々はSylloBio-NLIを用いて,ヒトゲノム経路に代表される28のシロメトリクススキームにおいて,有効結論の同定と証拠の抽出にLarge Language Models (LLMs) の評価を行った。生物医学的なシロメトリクス推論はゼロショットLPMでは特に困難であり、一般的なモダスポネンでは70%、解離性シロジズムでは23%の平均精度が達成されている。同時に,Gemma (+14%) やLLama-3 (+43%) など,さまざまな LLM のパフォーマンス向上を図っている。しかし、より深い分析の結果、どちらの手法も表面的な語彙変化に対して高い感度を示し、信頼性、モデルのアーキテクチャ、事前学習体制の依存性を強調している。以上より,本研究の結果から,LLMにおけるシロメトリクス推論の応用の可能性はあるものの,既存のモデルでは安全なバイオメディカルNLIアプリケーションに必要なロバスト性や一貫性が得られていないことが示唆された。

関連論文リスト

CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文参考訳（メタデータ） (2025-05-09T06:47:23Z)
Towards Artificial Intelligence Research Assistant for Expert-Involved Learning [64.7438151207189]
大規模言語モデル (LLMs) と大規模多モードモデル (LMMs) は科学研究における変革的ツールとして登場している。 textbfExpert-involved textbfLearning (ARIEL)のためのtextbfARtificial textbfIntelligence Research Assistantを提案する。
論文参考訳（メタデータ） (2025-05-03T14:21:48Z)
Large Language Models for Zero-shot Inference of Causal Structures in Biology [4.650342334505084]
本稿では,生物学における因果関係のゼロショット推論のための大規模言語モデル(LLM)を評価する枠組みを提案する。実世界の介入データを用いて, LLMから得られた因果関係を系統的に評価した。以上の結果から, 比較的小さなLLMでも生物学的システムにおける因果構造の意義を捉えることが可能であることが示唆された。
論文参考訳（メタデータ） (2025-03-06T11:43:30Z)
BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。 CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文参考訳（メタデータ） (2025-02-23T17:38:10Z)
Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文参考訳（メタデータ） (2024-12-26T12:12:23Z)
Large Language Models as Neurolinguistic Subjects: Identifying Internal Representations for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。伝統的な精神言語学的評価は、しばしばLSMの真の言語能力を誤って表現する統計バイアスを反映している。ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-12T04:16:44Z)
Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文参考訳（メタデータ） (2024-11-10T16:40:27Z)
A Survey for Large Language Models in Biomedicine [31.719451674137844]
このレビューは、PubMed、Web of Science、arXivなどのデータベースから得られた484の出版物の分析に基づいている。我々は、診断支援、薬物発見、パーソナライズドメディカル医療を含む幅広いバイオメディカル・タスクにおいて、ゼロショット学習におけるLLMの能力について検討する。データプライバシの懸念、限定されたモデル解釈可能性、データセットの品質の問題、倫理など、LLMがバイオメディシック領域で直面する課題について論じる。
論文参考訳（メタデータ） (2024-08-29T12:39:16Z)
An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文参考訳（メタデータ） (2024-02-21T11:27:31Z)
Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。 LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文参考訳（メタデータ） (2023-12-22T13:14:38Z)
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文参考訳（メタデータ） (2023-12-21T14:26:57Z)
High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models [1.9665865095034865]
関係抽出タスクを大言語モデルのバイナリ分類として定式化する。メインタイトルをテールエンティティとして指定し、コンテキストに明示的に組み込む。長い内容はテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
論文参考訳（メタデータ） (2023-12-13T16:43:41Z)
Using Large Language Models to Automate Category and Trend Analysis of Scientific Articles: An Application in Ophthalmology [4.455826633717872]
本稿では,Large Language Models (LLM) のパワーを活用した記事分類の自動手法を提案する。平均精度は0.86、平均F1は0.85である。モデルの他の科学分野への拡張性は、様々な分野にわたる研究やトレンド分析の促進にその影響を広げる。
論文参考訳（メタデータ） (2023-08-31T12:45:53Z)
Evaluating Large Language Models for Radiology Natural Language Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文参考訳（メタデータ） (2023-07-25T17:57:18Z)
Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation [0.0]
本研究は,生物医学的背景知識と対話するための大規模言語モデルの可能性を探るものである。フレームワークには3つの評価ステップが含まれており、それぞれが流布、即応的なアライメント、セマンティック・コヒーレンス、事実的知識、生成した応答の特異性という3つの側面を逐次評価する。この研究は、ChatGPT、GPT-4、Llama 2を含む11の最先端のLLMを2つのプロンプトベースタスクで持つ能力に関する体系的な評価を提供する。
論文参考訳（メタデータ） (2023-05-28T22:46:21Z)
A systematic evaluation of large language models for biomedical natural language processing: benchmarks, baselines, and recommendations [22.668383945059762]
そこで本研究では,12個のBioNLPデータセットにまたがる4つの代表言語モデル(LLM)を体系的に評価する。評価は、ゼロショット、静的少数ショット、動的Kアネレスト、微調整の4つの設定で行われる。これらのモデルと最先端(SOTA)アプローチを比較し、細い(ドメイン固有の)BERTモデルやBARTモデルと比較する。
論文参考訳（メタデータ） (2023-05-10T13:40:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。