論文の概要: MetaBench: A Multi-task Benchmark for Assessing LLMs in Metabolomics
- arxiv url: http://arxiv.org/abs/2510.14944v1
- Date: Thu, 16 Oct 2025 17:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.989065
- Title: MetaBench: A Multi-task Benchmark for Assessing LLMs in Metabolomics
- Title(参考訳): MetaBench: メタボロミクスにおけるLLMの評価のためのマルチタスクベンチマーク
- Authors: Yuxing Lu, Xukai Zhao, J. Ben Tamo, Micky C. Nnamdi, Rui Peng, Shuang Zeng, Xingyu Hu, Jinzhuo Wang, May D. Wang,
- Abstract要約: LLM(Large Language Models)は、一般的なテキストで顕著な機能を示す。
メタボロミクスは、その複雑な生化学的経路、異種識別子システム、断片化されたデータベースで固有の課題を提示する。
メタボロミクス評価のための最初のベンチマークであるMetaBenchを紹介する。
- 参考スコア(独自算出の注目度): 23.71774159970153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities on general text; however, their proficiency in specialized scientific domains that require deep, interconnected knowledge remains largely uncharacterized. Metabolomics presents unique challenges with its complex biochemical pathways, heterogeneous identifier systems, and fragmented databases. To systematically evaluate LLM capabilities in this domain, we introduce MetaBench, the first benchmark for metabolomics assessment. Curated from authoritative public resources, MetaBench evaluates five capabilities essential for metabolomics research: knowledge, understanding, grounding, reasoning, and research. Our evaluation of 25 open- and closed-source LLMs reveals distinct performance patterns across metabolomics tasks: while models perform well on text generation tasks, cross-database identifier grounding remains challenging even with retrieval augmentation. Model performance also decreases on long-tail metabolites with sparse annotations. With MetaBench, we provide essential infrastructure for developing and evaluating metabolomics AI systems, enabling systematic progress toward reliable computational tools for metabolomics research.
- Abstract(参考訳): 大きな言語モデル (LLM) は、一般的なテキストで顕著な能力を示しているが、深い相互接続の知識を必要とする専門的な科学領域におけるそれらの能力は、ほとんど役に立たないままである。
メタボロミクスは、その複雑な生化学的経路、異種識別子システム、断片化されたデータベースで固有の課題を提示する。
この領域でLLM機能を体系的に評価するために,メタボロミクス評価のための最初のベンチマークであるMetaBenchを紹介する。
メタベンチは権威のある公共資源から算出され、メタボロミクス研究に不可欠な5つの能力(知識、理解、基礎、推論、研究)を評価する。
メタボミクスタスクは,テキスト生成タスクではモデルの性能が良好であるのに対して,データベース間識別子のグラウンド化は,検索の強化においても依然として困難である。
モデルパフォーマンスは、スパースアノテーションによるロングテールメタボライトも低下する。
メタベンチでは、メタボロミクスAIシステムの開発と評価に不可欠なインフラを提供し、メタボロミクス研究のための信頼性の高い計算ツールへの体系的な進歩を可能にする。
関連論文リスト
- MetaMP: Seamless Metadata Enrichment and AI Application Framework for Enhanced Membrane Protein Visualization and Analysis [0.0]
本稿では,膜タンパク質データベースをWebアプリケーション内に統合するフレームワークであるMetaMPを紹介する。
統計に焦点を当てた検証において、MetaMPはデータ格差の77%を解決し、新たに同定された膜タンパク質のクラスを98%正確に予測した。
論文 参考訳(メタデータ) (2025-10-06T12:52:50Z) - Language Native Lightly Structured Databases for Large Language Model Driven Composite Materials Research [6.31777560888658]
本稿では, 窒化ホウ素ナノシート (BNNS) ポリマー熱伝導性複合材料の言語ネイティブデータベースを提案する。
このシステムは、文学を正確な、検証可能な、専門家のスタイルのガイダンスに合成することができる。
論文 参考訳(メタデータ) (2025-09-07T15:15:55Z) - GenOM: Ontology Matching with Description Generation and Large Language Model [19.917106654694894]
本稿では,大規模言語モデル(LLM)に基づくオントロジーアライメントフレームワークであるGenOMを紹介する。
OAEI Bio-MLトラックで行った実験は、GenOMがしばしば競争力を発揮することを示した。
論文 参考訳(メタデータ) (2025-08-14T14:48:09Z) - MetamatBench: Integrating Heterogeneous Data, Computational Tools, and Visual Interface for Metamaterial Discovery [35.74367505796871]
3つのレベルで動作するMetamatBenchという統合フレームワークを導入します。
データレベルでは、5つの異質なマルチモーダルなメタマテリアルデータセットを統合し、標準化する。
MLレベルは、メタマテリアル発見のために17の最先端のMLメソッドを適用する包括的なツールキットを提供する。
ユーザレベルでは、複雑なML技術と非ML研究者のギャップを埋める、視覚的インタラクティブなインターフェースが特徴である。
論文 参考訳(メタデータ) (2025-05-08T19:23:59Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Meta-RTL: Reinforcement-Based Meta-Transfer Learning for Low-Resource Commonsense Reasoning [61.8360232713375]
低リソースコモンセンス推論のための強化型マルチソースメタトランスファー学習フレームワーク(Meta-RTL)を提案する。
本稿では,メタトランスファー学習において,対象タスクに対するタスクの寄与を動的に推定する手法を提案する。
実験の結果,Meta-RTLは,強いベースラインと以前のタスク選択戦略を大幅に上回ることがわかった。
論文 参考訳(メタデータ) (2024-09-27T18:22:22Z) - DAC-MR: Data Augmentation Consistency Based Meta-Regularization for
Meta-Learning [55.733193075728096]
メタ学習を改善するメタ知識情報メタラーニング(MKIML)フレームワークを提案する。
適切なメタレギュラー化(MR)目標を用いて,メタ知識をメタオブジェクトに統合する。
提案したDAC-MRは、ノイズ、スパース、あるいは利用できないメタデータのトレーニングタスクから、良好なパフォーマンスのメタモデルを学ぶことを期待している。
論文 参考訳(メタデータ) (2023-05-13T11:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。