論文の概要: Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery
- arxiv url: http://arxiv.org/abs/2603.03322v1
- Date: Tue, 10 Feb 2026 05:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.150462
- Title: Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery
- Title(参考訳): 大規模言語モデルは新たな知識を導き出すことができるか? 生物学的知識発見のための動的ベンチマーク
- Authors: Chaoqun Yang, Xinyu Lin, Shulin Li, Wenjie Wang, Ruihan Guo, Fuli Feng, Tat-Seng Chua,
- Abstract要約: DBench-Bioは、AIの生物学的知識発見能力を評価するための、動的で完全に自動化されたベンチマークである。
このパイプラインをインスタンス化し、12のバイオメディカルサブドメインをカバーする月次更新ベンチマークを構築します。
我々の研究は、AIシステムの新しい知識発見能力を評価するための、最初の動的で自動的なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 81.03797680309154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Model (LLM) agents have demonstrated remarkable potential in automatic knowledge discovery. However, rigorously evaluating an AI's capacity for knowledge discovery remains a critical challenge. Existing benchmarks predominantly rely on static datasets, leading to inevitable data contamination where models have likely seen the evaluation knowledge during training. Furthermore, the rapid release cycles of modern LLMs render static benchmarks quickly outdated, failing to assess the ability to discover truly new knowledge. To address these limitations, we propose DBench-Bio, a dynamic and fully automated benchmark designed to evaluate AI's biological knowledge discovery ability. DBench-Bio employs a three-stage pipeline: (1) data acquisition of rigorous, authoritative paper abstracts; (2) QA extraction utilizing LLMs to synthesize scientific hypothesis questions and corresponding discovery answers; and (3) QA filter to ensure quality based on relevance, clarity, and centrality. We instantiate this pipeline to construct a monthly-updated benchmark covering 12 biomedical sub-domains. Extensive evaluations of SOTA models reveal current limitations in discovering new knowledge. Our work provides the first dynamic, automatic framework for assessing the new knowledge discovery capabilities of AI systems, establishing a living, evolving resource for AI research community to catalyze the development of knowledge discovery.
- Abstract(参考訳): 近年のLarge Language Model (LLM) エージェントの進歩は、自動知識発見において顕著な可能性を示している。
しかし、知識発見のためのAIの能力の厳格な評価は、依然として重要な課題である。
既存のベンチマークは、主に静的なデータセットに依存しており、トレーニング中にモデルが評価知識を見た場合、避けられないデータ汚染につながる。
さらに、現代のLLMの急激なリリースサイクルでは、静的ベンチマークは急速に時代遅れになり、真に新しい知識を発見する能力の評価に失敗した。
これらの制限に対処するために、AIの生物学的知識発見能力を評価するために設計された動的で完全に自動化されたベンチマークであるDBench-Bioを提案する。
そこでDBench-Bio は,(1) 厳密な論文要約データ取得,(2) 科学的仮説問題とそれに対応する発見回答を合成するための LLM を用いたQA抽出,(3) 関連性,明確性,中央性に基づく品質保証のためのQAフィルタを用いて,3段階のパイプラインを構築した。
このパイプラインをインスタンス化し、12のバイオメディカルサブドメインをカバーする月次更新ベンチマークを構築します。
SOTAモデルの大規模な評価は、新しい知識を発見する際の現在の限界を明らかにする。
我々の研究は、AIシステムの新しい知識発見能力を評価するための、初めての動的で自動的なフレームワークを提供し、知識発見の開発を促進するために、AI研究コミュニティのための生きた、進化したリソースを確立する。
関連論文リスト
- HealthFlow: A Self-Evolving AI Agent with Meta Planning for Autonomous Healthcare Research [32.21457361323802]
本稿では,新たなメタレベルの進化機構を通じて制限を克服する,自己進化型AIエージェントであるHealthFlowを紹介する。
HealthFlowは、手続き的な成功と失敗を永続的で構造化された知識ベースに蒸留することで、ハイレベルな問題解決ポリシーを自律的に洗練する。
私たちの実験では、HealthFlowの自己進化アプローチが最先端のエージェントフレームワークを大幅に上回っていることを実証しています。
論文 参考訳(メタデータ) (2025-08-04T17:08:47Z) - AutoMind: Adaptive Knowledgeable Agent for Automated Data Science [70.33796196103499]
LLM(Large Language Model)エージェントは、現実世界のデータサイエンス問題に対処する大きな可能性を示している。
既存のフレームワークは、厳格で、事前定義された、柔軟性のないコーディング戦略に依存している。
適応的で知識のあるLLMエージェントフレームワークであるAutoMindを紹介する。
論文 参考訳(メタデータ) (2025-06-12T17:59:32Z) - Benchmarking AI scientists in omics data-driven biological research [3.3605177939410713]
我々は,生物発見を生み出すAI科学者の能力を評価するために,生物AI科学者ベンチマーク(BaisBench)を紹介する。
BaisBenchは、31のエキスパートラベル付きシングルセルデータセット上の細胞型アノテーションと、198の複数の質問への回答による科学的発見の2つのタスクで構成されている。
論文 参考訳(メタデータ) (2025-05-13T08:33:54Z) - Information Retrieval in the Age of Generative AI: The RGB Model [77.96475639967431]
本稿では,生成型AIツールの利用の増加に伴って生じる複雑な情報ダイナミクスについて,新たな定量的アプローチを提案する。
本稿では,新たなトピックに応答して情報の生成,索引付け,普及を特徴付けるモデルを提案する。
以上の結果から,AI導入の急激なペースとユーザ依存度の増加は,不正確な情報拡散のリスクを増大させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-29T10:21:40Z) - BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology [4.099098082010236]
LLM(Large Language Models)とLLMをベースとしたエージェントは、科学研究の加速に大きな期待を示している。
本稿では,バイオインフォマティクスベンチマーク(BixBench)について述べる。
オープンソースのカスタムエージェントフレームワークを用いて,2つのフロンティアLCMの性能評価を行った。
論文 参考訳(メタデータ) (2025-02-28T18:47:57Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - Beyond Factuality: A Comprehensive Evaluation of Large Language Models
as Knowledge Generators [78.63553017938911]
大規模言語モデル(LLM)は、下流の知識集約タスクのための情報検索技術より優れている。
しかし、コミュニティの懸念は、この無検閲の知識を使用することの事実と潜在的意味について多岐にわたる。
本研究では,6つの重要な視点から生成した知識を評価するために設計されたCONNERを紹介する。
論文 参考訳(メタデータ) (2023-10-11T08:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。