論文の概要: BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics
- arxiv url: http://arxiv.org/abs/2601.21800v1
- Date: Thu, 29 Jan 2026 14:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.903832
- Title: BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics
- Title(参考訳): BioAgent Bench: バイオインフォマティクスのためのAIエージェント評価スイート
- Authors: Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupić,
- Abstract要約: BioAgent Benchは、AIエージェントのパフォーマンスと堅牢性を測定するために設計された、ベンチマークデータセットと評価スイートである。
ベンチマークには、自動アセスメントをサポートするための具体的な出力アーティファクトを指定するプロンプトを備えた、エンドツーエンドタスクのキュレートが含まれている。
複数のエージェントハーネスをまたいだフロンティアクローズドソースおよびオープンウェイトモデルの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces BioAgent Bench, a benchmark dataset and an evaluation suite designed for measuring the performance and robustness of AI agents in common bioinformatics tasks. The benchmark contains curated end-to-end tasks (e.g., RNA-seq, variant calling, metagenomics) with prompts that specify concrete output artifacts to support automated assessment, including stress testing under controlled perturbations. We evaluate frontier closed-source and open-weight models across multiple agent harnesses, and use an LLM-based grader to score pipeline progress and outcome validity. We find that frontier agents can complete multi-step bioinformatics pipelines without elaborate custom scaffolding, often producing the requested final artifacts reliably. However, robustness tests reveal failure modes under controlled perturbations (corrupted inputs, decoy files, and prompt bloat), indicating that correct high-level pipeline construction does not guarantee reliable step-level reasoning. Finally, because bioinformatics workflows may involve sensitive patient data, proprietary references, or unpublished IP, closed-source models can be unsuitable under strict privacy constraints; in such settings, open-weight models may be preferable despite lower completion rates. We release the dataset and evaluation suite publicly.
- Abstract(参考訳): 本稿では、バイオインフォマティクスタスクにおけるAIエージェントの性能と堅牢性を測定するために設計されたベンチマークデータセットと評価スイートであるBioAgent Benchを紹介する。
このベンチマークには、制御された摂動下でのストレステストを含む自動アセスメントをサポートするための具体的な出力アーティファクトを指定するプロンプト(例えば、RNA-seq、異種呼び出し、メダゲノミクス)が含まれている。
我々は,複数のエージェントハーネスにまたがるフロンティアクローズドソースモデルとオープンウェイトモデルを評価し,パイプラインの進行と結果の妥当性を評価するためにLLMベースのグレーダを用いた。
また,フロンティアエージェントは,多段階のバイオインフォマティクスパイプラインを精巧な足場を使わずに完成し,要求された最終アーティファクトを確実に生成できることがわかった。
しかし、ロバストネステストでは、制御された摂動下での障害モード(破損した入力、デコイファイル、急激な肥大化)が明らかとなり、正しい高レベルのパイプライン構成が信頼できるステップレベルの推論を保証していないことを示す。
最後に、バイオインフォマティクスのワークフローは機密性の高い患者データ、プロプライエタリな参照、または未公表のIPを含む可能性があるため、クローズドソースモデルは厳格なプライバシー制約の下では適さない。
データセットと評価スイートを公開しています。
関連論文リスト
- Agentic AI for Self-Driving Laboratories in Soft Matter: Taxonomy, Benchmarks,and Open Challenges [8.153488410654004]
自動運転研究所(SDL)は、実験設計、自動実行、データ駆動意思決定の間のループを閉じる。
この調査は、ソフトマターを代表的設定として使用するが、実際の研究室で発生するAI質問に焦点を当てる。
論文 参考訳(メタデータ) (2026-01-25T17:44:19Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z) - ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction [57.930531826380836]
本研究は,未ラベル画像のアノテータとして画素レベルの視覚課題におけるラベル不足に,基礎的セグメンテーションモデルが対処できるかどうかを考察する。
ConformalSAMは,まず対象ドメインのラベル付きデータを用いて基礎モデルを校正し,ラベルなしデータの信頼できないピクセルラベルをフィルタリングする新しいSSSSフレームワークである。
論文 参考訳(メタデータ) (2025-07-21T17:02:57Z) - Stress-Testing ML Pipelines with Adversarial Data Corruption [11.91482648083998]
規制当局は現在、ハイテイクシステムは現実的で相互依存的なエラーに耐えられるという証拠を要求している。
SAVAGEは依存性グラフとフレキシブルな汚いテンプレートを通じて、データ品質の問題を正式にモデル化するフレームワークです。
Savanageは、脆弱性のあるデータサブポピュレーションと微調整による汚職の深刻度を効率的に識別するために、双方向の最適化アプローチを採用している。
論文 参考訳(メタデータ) (2025-06-02T00:41:24Z) - LLM Agent Swarm for Hypothesis-Driven Drug Discovery [2.7036595757881323]
ファーマシュワーム(PharmaSwarm)は、新規な薬物標的および鉛化合物の仮説を提唱し、検証し、洗練するために、特殊な「エージェント」を編成する統合マルチエージェントフレームワークである。
PharmaSwarmはAIの副操縦士として機能することで、翻訳研究を加速し、従来のパイプラインよりも効率的に高信頼の仮説を提供することができる。
論文 参考訳(メタデータ) (2025-04-24T22:27:50Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - MIBP-Cert: Certified Training against Data Perturbations with Mixed-Integer Bilinear Programs [50.41998220099097]
トレーニング中のデータエラー、汚職、中毒攻撃は、現代のAIシステムの信頼性に大きな脅威をもたらす。
混合整数双線形プログラミング(MIBP)に基づく新しい認証手法MIBP-Certを紹介する。
摂動データや操作データを通じて到達可能なパラメータの集合を計算することで、可能なすべての結果を予測することができ、堅牢性を保証することができる。
論文 参考訳(メタデータ) (2024-12-13T14:56:39Z) - Benchmarking Uncertainty Qualification on Biosignal Classification Tasks
under Dataset Shift [16.15816241847314]
そこで本研究では,生体信号のデータセットシフトを推定する際の不確実性を評価する枠組みを提案する。
特に、呼吸音と心電図信号に基づく3つの分類タスクを用いて、5つの代表的な不確実性判定方法のベンチマークを行う。
論文 参考訳(メタデータ) (2021-12-16T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。