論文の概要: BioMedArena: An Open-source Toolkit for Building and Evaluating Biomedical Deep Research Agents
- arxiv url: http://arxiv.org/abs/2605.06177v1
- Date: Thu, 07 May 2026 12:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.800919
- Title: BioMedArena: An Open-source Toolkit for Building and Evaluating Biomedical Deep Research Agents
- Title(参考訳): BioMedArena: バイオメディカルディープリサーチエージェントの構築と評価のためのオープンソースツールキット
- Authors: Jinge Wu, Hongjian Zhou, Mingde Zeng, Jiayuan Zhu, Junde Wu, Jiazhen Pan, Sean Wu, Honghan Wu, Fenglin Liu, David A. Clifton,
- Abstract要約: ディープリサーチエージェントを評価するためのオープンソースのツールキットであるBioMedArenaをリリースする。
BioMedArenaは6層のバイオメディカルエージェント評価を分離する。
147のバイオメディカルベンチマークと75のバイオメディカルツールを9つのファミリーに公開している。
- 参考スコア(独自算出の注目度): 35.04967801827194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building a deep research agent today is an exercise in glue code: the same backbone evaluated on the same benchmark can report different accuracies in different papers because harness and tool registry all differ, and integrating a new foundation model into a comparable evaluation surface costs weeks of model-specific engineering. We call this the per-paper engineering tax and release BioMedArena, an open-source toolkit that not only alleviates it but also provides an arena for fair comparison of different foundation models when evaluating them as deep-research agents. BioMedArena decouples six layers of biomedical agent evaluation -- benchmark loading, tool exposure, tool selection, execution mode, context management, and scoring -- and exposes 147 biomedical benchmarks and 75 biomedical tools across 9 functional families. Adding a new model, benchmark, or tool reduces to registering a few-line provider adapter. We further provide 6 agent harnesses with 6 context-management strategies, which provide 12 backbones with competitive research capabilities and significantly improved performance, achieving state-of-the-art (SOTA) results on 8 representative biomedical benchmarks, with an average lift of +15.03 percentage points over prior SOTA. The toolkit, configurations, and per-task traces are available at https://github.com/AI-in-Health/BioMedArena
- Abstract(参考訳): 同じベンチマークで評価された同じバックボーンは、ハーネスとツールレジストリが異なるため、さまざまな論文に異なる精度を報告できます。
われわれはこれを論文ごとのエンジニアリング税と呼び、BioMedArenaをオープンソースツールキットとしてリリースしている。
BioMedArenaは、ベンチマークローディング、ツールエクスポージャー、ツール選択、実行モード、コンテキスト管理、スコアリングの6つのレイヤを分離し、9つの機能ファミリーにわたる147のバイオメディカルベンチマークと75のバイオメディカルツールを公開する。
新しいモデルやベンチマーク、ツールを追加することで、数行のプロバイダアダプタの登録が削減される。
さらに、6つの文脈管理戦略を備えたエージェントハーネスを6つ提供し、12個のバックボーンに競合研究能力を提供し、性能を著しく向上させ、8つの代表的なバイオメディカルベンチマークの最先端(SOTA)結果を達成する。
ツールキット、設定、タスク毎のトレースはhttps://github.com/AI-in-Health/BioMedArenaで入手できる。
関連論文リスト
- BioResearcher: Scenario-Guided Multi-Agent for Translational Medicine [1.497336135403194]
Ingenix BioResearcherはシナリオ誘導型マルチエージェントシステムで、クエリをバージョン管理されたリサーチプレイブックにマップする。
バイオリサーバーは, 単位レベルの能力, オープンエンドなバイオメディカル推論, エンドツーエンドの臨床発見にわたって評価した。
論文 参考訳(メタデータ) (2026-05-07T10:33:43Z) - BioMiner: A Multi-modal System for Automated Mining of Protein-Ligand Bioactivity Data from Literature [53.894504720119805]
生物活性データ抽出のためのマルチモーダル抽出フレームワークであるBioMinerを紹介する。
BioMinerでは、生物活性セマンティクスは直接推論によって推測され、化学構造は化学構造に基づく視覚的セマンティクス推論パラダイムによって解決される。
厳密な評価と方法開発のために,500の出版物から得られた16,457の生物活性成分からなるベンチマークを構築した。
論文 参考訳(メタデータ) (2026-04-23T10:11:56Z) - Augmenting Biomedical Named Entity Recognition with General-domain Resources [47.24727904076347]
ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。
GERBERAは、一般ドメインのNERデータセットをトレーニングに利用した、単純なyet効率の手法である。
我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - BioRED: A Comprehensive Biomedical Relation Extraction Dataset [6.915371362219944]
我々は,複数の実体型と関係対を持つ第一種バイオメディカルREコーパスであるBioREDを提示する。
それぞれの関係を、新しい発見知識または以前に知られていた背景知識を記述するものとしてラベル付けし、自動化アルゴリズムが新規情報と背景情報を区別できるようにする。
以上の結果から,既存の手法は NER タスクでは高い性能が得られるが,RE タスクには多くの改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2022-04-08T19:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。