論文の概要: FlyAOC: Evaluating Agentic Ontology Curation of Drosophila Scientific Knowledge Bases
- arxiv url: http://arxiv.org/abs/2602.09163v1
- Date: Mon, 09 Feb 2026 20:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.23326
- Title: FlyAOC: Evaluating Agentic Ontology Curation of Drosophila Scientific Knowledge Bases
- Title(参考訳): FlyAOC:ショウジョウバエの科学知識基盤のエージェントオントロジー評価
- Authors: Xingjian Zhang, Sophia Moylan, Ziyang Xiong, Qiaozhu Mei, Yichen Luo, Jiaqi W. Ma,
- Abstract要約: 本研究では,FlyBenchを用いて,エンドツーエンドのエージェントキュレーションにおけるAIエージェントの評価を行う。
遺伝子記号のみが与えられた場合、エージェントは構造化アノテーションを生成するために16,898のフルテキスト文書のコーパスを検索して読み込まなければならない。
このベンチマークには、FlyBaseから引き出された100の遺伝子にまたがる、専門家による7,397のアノテーションが含まれている。
- 参考スコア(独自算出の注目度): 10.00386797940562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific knowledge bases accelerate discovery by curating findings from primary literature into structured, queryable formats for both human researchers and emerging AI systems. Maintaining these resources requires expert curators to search relevant papers, reconcile evidence across documents, and produce ontology-grounded annotations - a workflow that existing benchmarks, focused on isolated subtasks like named entity recognition or relation extraction, do not capture. We present FlyBench to evaluate AI agents on end-to-end agentic ontology curation from scientific literature. Given only a gene symbol, agents must search and read from a corpus of 16,898 full-text papers to produce structured annotations: Gene Ontology terms describing function, expression patterns, and historical synonyms linking decades of nomenclature. The benchmark includes 7,397 expert-curated annotations across 100 genes drawn from FlyBase, the Drosophila (fruit fly) knowledge base. We evaluate four baseline agent architectures: memorization, fixed pipeline, single-agent, and multi-agent. We find that architectural choices significantly impact performance, with multi-agent designs outperforming simpler alternatives, yet scaling backbone models yields diminishing returns. All baselines leave substantial room for improvement. Our analysis surfaces several findings to guide future development; for example, agents primarily use retrieval to confirm parametric knowledge rather than discover new information. We hope FlyBench will drive progress on retrieval-augmented scientific reasoning, a capability with broad applications across scientific domains.
- Abstract(参考訳): 科学的知識基盤は、一次文献からの発見を、人間の研究者と新興AIシステムの両方のための構造化されたクエリ可能なフォーマットにキュレーションすることで、発見を加速する。
既存のベンチマークは、名前付きエンティティ認識やリレーショナル抽出のような独立したサブタスクに重点を置いており、キャプチャーをしない。
本研究では,FlyBenchを用いて,エンド・ツー・エンドのエージェントオントロジーキュレーションにおけるAIエージェントの評価を行う。
遺伝子記号のみを与えられた場合、エージェントは16,898のフルテキストの文書のコーパスから検索して、構造化されたアノテーションを生成する必要がある: 遺伝子オントロジー用語は、関数、表現パターン、そして数十年の命名をリンクする歴史的同義語である。
このベンチマークには、Drosophila (fruit fly)ナレッジベースであるFlyBaseから抽出された100の遺伝子にまたがる、専門家による7,397のアノテーションが含まれている。
メモリ化,固定パイプライン,単一エージェント,マルチエージェントの4つのベースラインエージェントアーキテクチャを評価した。
アーキテクチャ上の選択はパフォーマンスに大きく影響し、マルチエージェント設計はより単純な選択肢よりも優れていますが、バックボーンモデルのスケーリングはリターンを減少させます。
すべての基準線は改善の余地を残している。
例えば、エージェントは、新しい情報を見つけるのではなく、主に検索を用いてパラメトリック知識を確認する。
FlyBenchは、科学的分野にまたがる幅広い応用能力である、検索可能な科学的推論の進歩を後押しすることを期待している。
関連論文リスト
- PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR [64.22412492998754]
我々は,1600万件のバイオメディカルペーパーを要約した検索コーパスを公開し,PaperSearchQAと呼ばれるファクトイックなQAデータセットを構築した。
我々は,この環境における検索エージェントを訓練し,非RL検索ベースラインを上回ります。
我々のデータ生成方法はスケーラブルで、他の科学領域にも容易に拡張できます。
論文 参考訳(メタデータ) (2026-01-26T06:46:16Z) - SciNetBench: A Relation-Aware Benchmark for Scientific Literature Retrieval Agents [12.057215000080705]
本稿では,文献検索エージェントのためのSciNetBenchを提案する。
本ベンチマークでは,新しい知識構造を持つ論文のエゴ中心検索,学術的関係のペアワイド同定,科学的進化的軌道のパスワイド再構築の3つのレベルを体系的に評価した。
関係認識検索タスクの精度は20%以下に低下することが多く、現在の検索パラダイムの中核的な欠点が浮かび上がっている。
論文 参考訳(メタデータ) (2025-12-16T02:53:02Z) - OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive [50.468138755368805]
オピオイド危機は公衆衛生にとって重要な瞬間である。
UCSF-JHU Opioid Industry Documents Archive(OIDA)に公開されているデータと文書
本稿では,文書属性に応じて元のデータセットを整理することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-11-13T03:27:32Z) - ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers? [29.17900668495058]
本稿では、フロンティアAIエージェントの評価フレームワークであるReplicationBenchを紹介する。
天体物理学の文献から得られた研究論文全体を、エージェントが複製できるかどうかを検査する。
R ReplicationBenchは、論文スケールで専門家が検証した天体物理学の研究タスクの最初のベンチマークを確立している。
論文 参考訳(メタデータ) (2025-10-28T16:21:19Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - FROGENT: An End-to-End Full-process Drug Design Agent [19.025736969789566]
薬物発見のための強力なAIツールは、孤立したWebアプリ、デスクトッププログラム、コードライブラリに存在する。
この問題に対処するため、FROGENTという名前のフルプロセスduG dEsign ageNTが提案されている。
FROGENTはLarge Language ModelとModel Context Protocolを使用して、複数の動的生化学データベース、ツールライブラリ、タスク固有のAIモデルを統合する。
論文 参考訳(メタデータ) (2025-08-14T15:45:53Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science [43.624608816218505]
BioKGBenchはAI駆動型バイオメディカルエージェントの評価ベンチマークである。
私たちはまず『Understanding Literature』を2つの原子能力に分解した。
次に、KGQAとドメインベースのRetrieval-Augmented Generationを用いて、KGCheckと呼ばれる新しいエージェントタスクを定式化する。
2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
論文 参考訳(メタデータ) (2024-06-29T15:23:28Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - PaperQA: Retrieval-Augmented Generative Agent for Scientific Research [41.9628176602676]
本稿では,科学文献に関する質問に回答するためのRAGエージェントPaperQAを紹介する。
PaperQAは、全文の科学論文を通じて情報検索を行い、ソースやパスの関連性を評価し、RAGを使用して回答を提供するエージェントである。
また、文献全体にわたる全文科学論文からの情報の検索と合成を必要とする、より複雑なベンチマークであるLitQAを紹介する。
論文 参考訳(メタデータ) (2023-12-08T18:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。