論文の概要: BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science
- arxiv url: http://arxiv.org/abs/2407.00466v1
- Date: Sat, 29 Jun 2024 15:23:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 03:06:00.774307
- Title: BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science
- Title(参考訳): BioKGBench: バイオメディカルサイエンスのためのAIエージェントのベンチマークを知識グラフでチェックする
- Authors: Xinna Lin, Siqi Ma, Junjie Shan, Xiaojing Zhang, Shell Xu Hu, Tiannan Guo, Stan Z. Li, Kaicheng Yu,
- Abstract要約: BioKGBenchはAI駆動型バイオメディカルエージェントの評価ベンチマークである。
私たちはまず『Understanding Literature』を2つの原子能力に分解した。
次に、KGQAとドメインベースのRetrieval-Augmented Generationを用いて、KGCheckと呼ばれる新しいエージェントタスクを定式化する。
2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
- 参考スコア(独自算出の注目度): 43.624608816218505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pursuing artificial intelligence for biomedical science, a.k.a. AI Scientist, draws increasing attention, where one common approach is to build a copilot agent driven by Large Language Models (LLMs). However, to evaluate such systems, people either rely on direct Question-Answering (QA) to the LLM itself, or in a biomedical experimental manner. How to precisely benchmark biomedical agents from an AI Scientist perspective remains largely unexplored. To this end, we draw inspiration from one most important abilities of scientists, understanding the literature, and introduce BioKGBench. In contrast to traditional evaluation benchmark that only focuses on factual QA, where the LLMs are known to have hallucination issues, we first disentangle "Understanding Literature" into two atomic abilities, i) "Understanding" the unstructured text from research papers by performing scientific claim verification, and ii) Ability to interact with structured Knowledge-Graph Question-Answering (KGQA) as a form of "Literature" grounding. We then formulate a novel agent task, dubbed KGCheck, using KGQA and domain-based Retrieval-Augmented Generation (RAG) to identify the factual errors of existing large-scale knowledge graph databases. We collect over two thousand data for two atomic tasks and 225 high-quality annotated data for the agent task. Surprisingly, we discover that state-of-the-art agents, both daily scenarios and biomedical ones, have either failed or inferior performance on our benchmark. We then introduce a simple yet effective baseline, dubbed BKGAgent. On the widely used popular knowledge graph, we discover over 90 factual errors which provide scenarios for agents to make discoveries and demonstrate the effectiveness of our approach. The code and data are available at https://github.com/westlake-autolab/BioKGBench.
- Abstract(参考訳): バイオメディカルサイエンスのための人工知能、別名AI Scientistは、大きな言語モデル(LLM)によって駆動される協調エージェントを構築するための一般的なアプローチとして注目されている。
しかし, これらのシステムを評価するためには, LLM自体に直接質問応答(QA)を頼りにするか, あるいは生物医学的な実験を行おうとする。
AIサイエンティストの観点から、バイオメディカルエージェントを正確にベンチマークする方法はほとんど解明されていない。
この目的のために、我々は科学者の最も重要な能力からインスピレーションを得て、文献を理解し、BioKGBenchを紹介します。
LLMが幻覚の問題を抱えていることが知られている事実QAのみに焦点を当てた従来の評価ベンチマークとは対照的に、まず「Understanding Literature」を2つの原子能力に分解する。
一 科学的クレーム検証を行うことにより研究論文から非構造化テキストを「理解」すること。
二 構造化知識グラフ質問応答(KGQA)を「リテラル」接地形態として操作する能力。
次に、KGCheckと呼ばれる新しいエージェントタスクをKGQAとドメインベースのRetrieval-Augmented Generation (RAG)を用いて定式化し、既存の大規模知識グラフデータベースの実際のエラーを特定する。
2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
驚いたことに、日々のシナリオとバイオメディカルの両方の最先端のエージェントが、ベンチマークのパフォーマンスに失敗したか、劣っていることがわかりました。
次に、BKGAgentと呼ばれるシンプルで効果的なベースラインを導入します。
広く使われている知識グラフでは90以上の事実誤りが発見され、エージェントが発見し、我々のアプローチの有効性を実証するシナリオを提供する。
コードとデータはhttps://github.com/westlake-autolab/BioKGBench.comで公開されている。
関連論文リスト
- LAB-Bench: Measuring Capabilities of Language Models for Biology Research [1.6312096924271486]
言語エージェント生物学ベンチマーク(LAB-Bench)を紹介する。
これは、AIシステムを評価するための2,400以上の複数の選択質問のデータセットである。
また,本ベンチマークに対して,複数のフロンティア言語モデルの性能を測定し,人間の専門生物学研究者と比較して結果を報告する。
論文 参考訳(メタデータ) (2024-07-14T23:52:25Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - PaperQA: Retrieval-Augmented Generative Agent for Scientific Research [41.9628176602676]
本稿では,科学文献に関する質問に回答するためのRAGエージェントPaperQAを紹介する。
PaperQAは、全文の科学論文を通じて情報検索を行い、ソースやパスの関連性を評価し、RAGを使用して回答を提供するエージェントである。
また、文献全体にわたる全文科学論文からの情報の検索と合成を必要とする、より複雑なベンチマークであるLitQAを紹介する。
論文 参考訳(メタデータ) (2023-12-08T18:50:20Z) - Knowledge-injected Prompt Learning for Chinese Biomedical Entity
Normalization [6.927883826415262]
本稿では,バイオメディカルエンティティ正規化(BEN)課題に取り組むために,知識注入型プロンプト学習(PL-Knowledge)手法を提案する。
具体的には、候補エンティティマッチング、知識抽出、知識符号化、知識注入、予測出力の5段階からなる。
医療機関に含まれる知識項目を効果的に符号化することにより、追加の知識は、医療機関間の潜伏関係を捕捉するモデルの能力を高める。
論文 参考訳(メタデータ) (2023-08-23T09:32:40Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - BioRED: A Comprehensive Biomedical Relation Extraction Dataset [6.915371362219944]
我々は,複数の実体型と関係対を持つ第一種バイオメディカルREコーパスであるBioREDを提示する。
それぞれの関係を、新しい発見知識または以前に知られていた背景知識を記述するものとしてラベル付けし、自動化アルゴリズムが新規情報と背景情報を区別できるようにする。
以上の結果から,既存の手法は NER タスクでは高い性能が得られるが,RE タスクには多くの改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2022-04-08T19:23:49Z) - The Digitalization of Bioassays in the Open Research Knowledge Graph [6.508148285794385]
ORKG-assaysはPythonで書かれたAIマイクロサービスである。
AIベースのクラスタリングアルゴリズムを使用しており、900以上のバイオアッセイと5,514のユニークなプロパティ値ペアを103の述語で比較すると、競合的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-03-28T08:35:01Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。