論文の概要: PlantMarkerBench: A Multi-Species Benchmark for Evidence-Grounded Plant Marker Reasoning
- arxiv url: http://arxiv.org/abs/2605.10032v2
- Date: Tue, 12 May 2026 03:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:07.046979
- Title: PlantMarkerBench: A Multi-Species Benchmark for Evidence-Grounded Plant Marker Reasoning
- Title(参考訳): PlantMarkerBench: ビビデンスを取り巻くプラントマーカ推論のためのマルチスペックベンチマーク
- Authors: Sajib Acharjee Dip, Song Li, Liqing Zhang,
- Abstract要約: PlantMarkerBenchは、フルテキストの生物学的論文から文献的な植物マーカーのエビデンスを解釈するベンチマークである。
4つの植物種にまたがり、5,550件の文章レベルのエビデンス・インスタンスが含まれており、マーカーのエビデンス、エビデンス・タイプ、サポートの強さを示す。
種々にわたる多様なオープンソースおよびクローズドソースの言語モデルをベンチマークし、戦略を推進します。
- 参考スコア(独自算出の注目度): 10.873172077806798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cell-type-specific marker genes are fundamental to plant biology, yet existing resources primarily rely on curated databases or high-throughput studies without explicitly modeling the supporting evidence found in scientific literature. We introduce PlantMarkerBench, a multi-species benchmark for evaluating literature-grounded plant marker evidence interpretation from full-text biological papers. PlantMarkerBench is constructed using a modular curation pipeline integrating large-scale literature retrieval, hybrid search, species-aware biological grounding, structured evidence extraction, and targeted human review. The benchmark spans four plant species -- Arabidopsis, maize, rice, and tomato -- and contains 5,550 sentence-level evidence instances annotated for marker-evidence validity, evidence type, and support strength. We define two benchmark tasks: determining whether a candidate sentence provides valid marker evidence for a gene-cell-type pair, and classifying the evidence into expression, localization, function, indirect, or negative categories. We benchmark diverse open-weight and closed-source language models across species and prompting strategies. Although frontier models achieve relatively strong performance on direct expression evidence, performance drops substantially on functional, indirect, and weak-support evidence, with evidence-type confusion emerging as a dominant failure mode. Open-weight models additionally exhibit elevated false-positive rates under ambiguous biological contexts. PlantMarkerBench provides a challenging and reproducible evaluation framework for literature-grounded biological evidence attribution and supports future research on trustworthy scientific information extraction and AI-assisted plant biology.
- Abstract(参考訳): 細胞型特異的マーカー遺伝子は植物生物学の基礎であるが、既存の資源は主に、科学文献に見られる証拠を明示的にモデル化することなく、キュレートされたデータベースや高スループットの研究に依存している。
そこで本論文では,文献的根拠に基づく植物マーカーの解釈を行うための多種ベンチマークであるPlanetMarkerBenchを紹介する。
PlantMarkerBenchは、大規模文献検索、ハイブリッド検索、種を意識した生物学的接地、構造化されたエビデンス抽出、対象とする人間のレビューを統合したモジュール型キュレーションパイプラインを使用して構築されている。
このベンチマークは、シロイヌナズナ、トウモロコシ、米、トマトの4種にまたがり、5,550件の文レベルのエビデンスがあり、マーカーのエビデンス、エビデンスタイプ、サポート強度が記録されている。
候補文が遺伝子セル型ペアに対して有効なマーカーエビデンスを提供するかどうかを判定し,そのエビデンスを表現,局所化,関数,間接的,負のカテゴリに分類する。
種々にわたる多様なオープンソースおよびクローズドソースの言語モデルをベンチマークし、戦略を推進します。
フロンティアモデルは直接表現の証拠に対して比較的強い性能を達成するが、性能低下は機能的、間接的、弱い証拠に大きく影響し、エビデンスタイプの混乱が支配的な障害モードとして出現する。
オープンウェイトモデルはまた、曖昧な生物学的文脈下での偽陽性率の上昇も示している。
PlantMarkerBenchは、文献に基づく生物学的証拠の帰属に対する挑戦的で再現可能な評価フレームワークを提供し、信頼できる科学的情報抽出とAI支援植物生物学に関する将来の研究を支援する。
関連論文リスト
- CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - FlyAOC: Evaluating Agentic Ontology Curation of Drosophila Scientific Knowledge Bases [10.00386797940562]
本研究では,FlyBenchを用いて,エンドツーエンドのエージェントキュレーションにおけるAIエージェントの評価を行う。
遺伝子記号のみが与えられた場合、エージェントは構造化アノテーションを生成するために16,898のフルテキスト文書のコーパスを検索して読み込まなければならない。
このベンチマークには、FlyBaseから引き出された100の遺伝子にまたがる、専門家による7,397のアノテーションが含まれている。
論文 参考訳(メタデータ) (2026-02-09T20:12:38Z) - BioVerge: A Comprehensive Benchmark and Study of Self-Evaluating Agents for Biomedical Hypothesis Generation [16.117624717812863]
我々は、総合的なベンチマークであるBioVergeとLLMベースのエージェントフレームワークであるBioVerge Agentを導入し、バイオメディカル仮説生成のための標準化された環境を構築する。
本データセットは, LLMエージェントによる探索を支援するために組織された, 歴史的生物医学的仮説とPubMed文献から得られた構造化およびテキストデータを含む。
論文 参考訳(メタデータ) (2025-11-12T01:09:52Z) - Flow Matching Meets Biology and Life Science: A Survey [65.2146737141455]
拡散に基づく生成モデリングの強力な代替手段としてフローマッチングが登場した。
本稿では,フローマッチングの最近の進歩とその生物学的領域への応用に関する包括的調査について述べる。
論文 参考訳(メタデータ) (2025-07-23T17:44:29Z) - EvidenceBench: A Benchmark for Extracting Evidence from Biomedical Papers [6.016315914361666]
バイオメディカルペーパーにおける仮説に関連する証拠を自動的に発見する作業について検討する。
このタスクでモデルのパフォーマンスを測定するために、EvidenceBenchを導入します。
複数の人間-専門家のアノテーションを用いて,パイプラインの妥当性と精度を示す。
論文 参考訳(メタデータ) (2025-04-25T23:23:17Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Studying Limits of Explainability by Integrated Gradients for Gene
Expression Models [3.220287168504093]
重要度によるランク付け機能は,バイオマーカーの同定に十分ではないことを示す。
バイオマーカーが真理を知らないままに関係する原因を反映しているかどうかを評価することは難しいため、階層的モデルを提案することで遺伝子発現データをシミュレートする。
論文 参考訳(メタデータ) (2023-03-19T19:54:15Z) - Semantic Image Segmentation with Deep Learning for Vine Leaf Phenotyping [59.0626764544669]
本研究では,ブドウの葉のイメージを意味的にセグメント化するためにDeep Learning法を用いて,葉の表現型自動検出システムを開発した。
私たちの研究は、成長や開発のような動的な特性を捉え定量化できる植物ライフサイクルのモニタリングに寄与します。
論文 参考訳(メタデータ) (2022-10-24T14:37:09Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。