論文の概要: K-Dense Analyst: Towards Fully Automated Scientific Analysis
- arxiv url: http://arxiv.org/abs/2508.07043v1
- Date: Sat, 09 Aug 2025 16:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.670045
- Title: K-Dense Analyst: Towards Fully Automated Scientific Analysis
- Title(参考訳): K-Dense Analyst:完全自動科学分析を目指して
- Authors: Orion Li, Vinayak Agarwal, Summer Zhou, Ashwin Gopinath, Timothy Kassis,
- Abstract要約: 我々は,自律型バイオインフォマティクス解析を実現する階層型マルチエージェントシステムであるK-Dense Analystを紹介する。
BixBenchでは、K-Dense Analystが29.2%の精度を達成し、最高のパフォーマンス言語モデル(GPT-5)を6.3%上回っている。
- 参考スコア(独自算出の注目度): 3.9612794402727634
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The complexity of modern bioinformatics analysis has created a critical gap between data generation and developing scientific insights. While large language models (LLMs) have shown promise in scientific reasoning, they remain fundamentally limited when dealing with real-world analytical workflows that demand iterative computation, tool integration and rigorous validation. We introduce K-Dense Analyst, a hierarchical multi-agent system that achieves autonomous bioinformatics analysis through a dual-loop architecture. K-Dense Analyst, part of the broader K-Dense platform, couples planning with validated execution using specialized agents to decompose complex objectives into executable, verifiable tasks within secure computational environments. On BixBench, a comprehensive benchmark for open-ended biological analysis, K-Dense Analyst achieves 29.2% accuracy, surpassing the best-performing language model (GPT-5) by 6.3 percentage points, representing nearly 27% improvement over what is widely considered the most powerful LLM available. Remarkably, K-Dense Analyst achieves this performance using Gemini 2.5 Pro, which attains only 18.3% accuracy when used directly, demonstrating that our architectural innovations unlock capabilities far beyond the underlying model's baseline performance. Our insights demonstrate that autonomous scientific reasoning requires more than enhanced language models, it demands purpose-built systems that can bridge the gap between high-level scientific objectives and low-level computational execution. These results represent a significant advance toward fully autonomous computational biologists capable of accelerating discovery across the life sciences.
- Abstract(参考訳): 現代のバイオインフォマティクス分析の複雑さは、データ生成と科学的洞察の発達の間に重要なギャップを生み出している。
大規模言語モデル(LLM)は科学的推論において有望であるが、反復計算、ツール統合、厳密な検証を必要とする実世界の分析ワークフローを扱う際には、基本的に制限される。
K-Dense Analystは階層型マルチエージェントシステムであり、デュアルループアーキテクチャを用いて自律的なバイオインフォマティクス解析を実現する。
より広範なK-Denseプラットフォームの一部であるK-Dense Analystは、特殊なエージェントを使用して検証された実行を計画し、複雑な目的をセキュアな計算環境内で実行可能で検証可能なタスクに分解する。
オープンエンド生物学的分析の総合ベンチマークであるBixBenchでは、K-Dense Analystが29.2%の精度を達成し、最高のパフォーマンス言語モデル(GPT-5)を6.3%上回った。
注目すべきなのは、K-Dense AnalystがGemini 2.5 Proを使用してこのパフォーマンスを実現していることです。
我々の知見は、自律的な科学的推論には言語モデル以上のものが必要であり、高レベルの科学的目的と低レベルの計算実行とのギャップを埋めることのできる、汎用的なシステムが必要であることを実証している。
これらの結果は、生命科学全体の発見を加速できる完全に自律的な計算生物学者への大きな進歩を示している。
関連論文リスト
- ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology [0.8061245870721293]
LLM(Large Language Models)とLLMをベースとしたエージェントは、科学研究の加速に大きな期待を示している。
本稿では,バイオインフォマティクスベンチマーク(BixBench)について述べる。
オープンソースのカスタムエージェントフレームワークを用いて,2つのフロンティアLCMの性能評価を行った。
論文 参考訳(メタデータ) (2025-02-28T18:47:57Z) - Diagnosing Robotics Systems Issues with Large Language Models [5.30112395683561]
大規模言語モデル(LLM)は大量のデータを分析するのに優れている。
ここでは、この研究を、ロボットシステムの難解で、ほとんど探索されていない領域に拡張する。
論文 参考訳(メタデータ) (2024-10-06T11:58:12Z) - DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [18.577658530714505]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。