論文の概要: Benchmarking LLM-based Agents for Single-cell Omics Analysis
- arxiv url: http://arxiv.org/abs/2508.13201v1
- Date: Sat, 16 Aug 2025 04:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.650177
- Title: Benchmarking LLM-based Agents for Single-cell Omics Analysis
- Title(参考訳): 単一セルオミクス解析のためのLCMエージェントのベンチマーク
- Authors: Yang Liu, Lu Zhou, Ruikun He, Rongbo Shen, Yixue Li,
- Abstract要約: AIエージェントは、適応的な計画、実行可能なコード生成、トレース可能な決定、リアルタイム知識融合を可能にする、パラダイムシフトを提供する。
本稿では,シングルセルオミクス解析におけるエージェント能力の厳格な評価を行うためのベンチマーク評価システムを提案する。
- 参考スコア(独自算出の注目度): 6.915378212190715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surge in multimodal single-cell omics data exposes limitations in traditional, manually defined analysis workflows. AI agents offer a paradigm shift, enabling adaptive planning, executable code generation, traceable decisions, and real-time knowledge fusion. However, the lack of a comprehensive benchmark critically hinders progress. We introduce a novel benchmarking evaluation system to rigorously assess agent capabilities in single-cell omics analysis. This system comprises: a unified platform compatible with diverse agent frameworks and LLMs; multidimensional metrics assessing cognitive program synthesis, collaboration, execution efficiency, bioinformatics knowledge integration, and task completion quality; and 50 diverse real-world single-cell omics analysis tasks spanning multi-omics, species, and sequencing technologies. Our evaluation reveals that Grok-3-beta achieves state-of-the-art performance among tested agent frameworks. Multi-agent frameworks significantly enhance collaboration and execution efficiency over single-agent approaches through specialized role division. Attribution analyses of agent capabilities identify that high-quality code generation is crucial for task success, and self-reflection has the most significant overall impact, followed by retrieval-augmented generation (RAG) and planning. This work highlights persistent challenges in code generation, long-context handling, and context-aware knowledge retrieval, providing a critical empirical foundation and best practices for developing robust AI agents in computational biology.
- Abstract(参考訳): マルチモーダル単一セルオミクスデータの急増は、従来の手動で定義された分析ワークフローの制限を明らかにする。
AIエージェントは、適応的な計画、実行可能なコード生成、トレース可能な決定、リアルタイム知識融合を可能にする、パラダイムシフトを提供する。
しかし、包括的なベンチマークの欠如は、進歩を著しく妨げている。
本稿では,シングルセルオミクス解析におけるエージェント能力の厳格な評価を行うためのベンチマーク評価システムを提案する。
多様なエージェントフレームワークやLDMと互換性のある統一プラットフォーム、認知プログラムの合成、コラボレーション、実行効率、バイオインフォマティクスの知識統合、タスク完了品質を評価する多次元メトリクス、および、マルチオミクス、種、シークエンシング技術にまたがる50の現実世界のシングルセルオミクス分析タスクを含む。
評価の結果,Grok-3-betaはテスト対象のエージェントフレームワークの最先端性能を実現していることがわかった。
マルチエージェントフレームワークは、特別な役割分割を通じて、単一エージェントアプローチよりもコラボレーションと実行効率を大幅に向上させる。
エージェント能力の属性分析では、タスクの成功には高品質なコード生成が不可欠であり、自己回帰は、検索強化生成(RAG)と計画に次いで、最も大きな影響を持つ。
この研究は、コード生成、長期コンテキストハンドリング、コンテキスト認識の知識検索における永続的な課題を強調し、計算生物学において堅牢なAIエージェントを開発するための重要な経験的基礎とベストプラクティスを提供する。
関連論文リスト
- Deep Research Agents: A Systematic Examination And Roadmap [79.04813794804377]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - Unifying Language Agent Algorithms with Graph-based Orchestration Engine for Reproducible Agent Research [32.92036657863354]
大規模言語モデル(LLM)を利用した言語エージェントは、複雑なタスクの理解、推論、実行において顕著な能力を示した。
しかし、堅牢なエージェントの開発には、相当なエンジニアリングオーバーヘッド、標準化されたコンポーネントの欠如、公正な比較のための十分な評価フレームワークなど、大きな課題がある。
我々はこれらの課題に対処するフレキシブルで抽象的なフレームワークであるAGORA(Agent Graph-based Orchestration for Reasoning and Assessment)を紹介した。
論文 参考訳(メタデータ) (2025-05-30T08:46:23Z) - Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文 参考訳(メタデータ) (2025-05-29T07:24:37Z) - Evaluations at Work: Measuring the Capabilities of GenAI in Use [28.124088786766965]
現在のAIベンチマークは、人間とAIのコラボレーションの混乱したマルチターンの性質を見逃している。
実世界のタスクを相互依存サブタスクに分解する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T23:06:23Z) - Enhancing LLM Code Generation: A Systematic Evaluation of Multi-Agent Collaboration and Runtime Debugging for Improved Accuracy, Reliability, and Latency [0.0]
プログラミング活動の異なる構成や訓練パラダイムがコード生成の効率に与える影響について検討する。
私たちの発見は、堅牢なAI駆動型コーディングソリューションを求める組織に貴重な洞察を与えます。
論文 参考訳(メタデータ) (2025-05-04T14:44:27Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。
既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。
多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-03T05:18:50Z) - Optimizing Collaboration of LLM based Agents for Finite Element Analysis [1.5039745292757671]
本稿では,Large Language Models (LLM) 内の複数のエージェント間の相互作用について,プログラミングおよびコーディングタスクの文脈で検討する。
我々はAutoGenフレームワークを利用してエージェント間の通信を容易にし、各セットアップの40のランダムランからの成功率に基づいて異なる構成を評価する。
論文 参考訳(メタデータ) (2024-08-23T23:11:08Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。