論文の概要: K-Dense Analyst: Towards Fully Automated Scientific Analysis
- arxiv url: http://arxiv.org/abs/2508.07043v2
- Date: Mon, 29 Sep 2025 23:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.794802
- Title: K-Dense Analyst: Towards Fully Automated Scientific Analysis
- Title(参考訳): K-Dense Analyst:完全自動科学分析を目指して
- Authors: Orion Li, Vinayak Agarwal, Summer Zhou, Ashwin Gopinath, Timothy Kassis,
- Abstract要約: 我々は,自律型バイオインフォマティクス解析を実現する階層型マルチエージェントシステムであるK-Dense Analystを紹介する。
BixBenchでは、K-Dense Analystが29.2%の精度を達成し、最高のパフォーマンス言語モデル(GPT-5)を6.3%上回っている。
- 参考スコア(独自算出の注目度): 2.5880359009782055
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The complexity of modern bioinformatics analysis has created a critical gap between data generation and developing scientific insights. While large language models (LLMs) have shown promise in scientific reasoning, they remain fundamentally limited when dealing with real-world analytical workflows that demand iterative computation, tool integration and rigorous validation. We introduce K-Dense Analyst, a hierarchical multi-agent system that achieves autonomous bioinformatics analysis through a dual-loop architecture. K-Dense Analyst, part of the broader K-Dense platform, couples planning with validated execution using specialized agents to decompose complex objectives into executable, verifiable tasks within secure computational environments. On BixBench, a comprehensive benchmark for open-ended biological analysis, K-Dense Analyst achieves 29.2% accuracy, surpassing the best-performing language model (GPT-5) by 6.3 percentage points, representing nearly 27% improvement over what is widely considered the most powerful LLM available. Remarkably, K-Dense Analyst achieves this performance using Gemini 2.5 Pro, which attains only 18.3% accuracy when used directly, demonstrating that our architectural innovations unlock capabilities far beyond the underlying model's baseline performance. Our insights demonstrate that autonomous scientific reasoning requires more than enhanced language models, it demands purpose-built systems that can bridge the gap between high-level scientific objectives and low-level computational execution. These results represent a significant advance toward fully autonomous computational biologists capable of accelerating discovery across the life sciences.
- Abstract(参考訳): 現代のバイオインフォマティクス分析の複雑さは、データ生成と科学的洞察の発達の間に重要なギャップを生み出している。
大規模言語モデル(LLM)は科学的推論において有望であるが、反復計算、ツール統合、厳密な検証を必要とする実世界の分析ワークフローを扱う際には、基本的に制限される。
K-Dense Analystは階層型マルチエージェントシステムであり、デュアルループアーキテクチャを用いて自律的なバイオインフォマティクス解析を実現する。
より広範なK-Denseプラットフォームの一部であるK-Dense Analystは、特殊なエージェントを使用して検証された実行を計画し、複雑な目的をセキュアな計算環境内で実行可能で検証可能なタスクに分解する。
オープンエンド生物学的分析の総合ベンチマークであるBixBenchでは、K-Dense Analystが29.2%の精度を達成し、最高のパフォーマンス言語モデル(GPT-5)を6.3%上回った。
注目すべきなのは、K-Dense AnalystがGemini 2.5 Proを使用してこのパフォーマンスを実現していることです。
我々の知見は、自律的な科学的推論には言語モデル以上のものが必要であり、高レベルの科学的目的と低レベルの計算実行とのギャップを埋めることのできる、汎用的なシステムが必要であることを実証している。
これらの結果は、生命科学全体の発見を加速できる完全に自律的な計算生物学者への大きな進歩を示している。
関連論文リスト
- An Agentic Framework for Autonomous Materials Computation [70.24472585135929]
大規模言語モデル(LLM)は、科学的発見を加速するための強力なツールとして登場した。
近年の進歩はLLMをエージェントフレームワークに統合し、複雑な科学実験のための検索、推論、ツールの使用を可能にしている。
本稿では,第一原理計算の信頼性向上を目的としたドメイン特化エージェントを提案する。
論文 参考訳(メタデータ) (2025-12-22T15:03:57Z) - EpidemIQs: Prompt-to-Paper LLM Agents for Epidemic Modeling and Analysis [0.0]
大規模言語モデル(LLM)は、複雑な学際研究を自動化する新しい機会を提供する。
EpidemIQsは、ユーザ入力を統合し、文献のレビュー、分析的導出、ネットワークモデリング、シミュレーションの呼び出し、データの可視化と分析、そして最後に構造化された原稿での発見の文書化を行う、新しいマルチエージェントLCMフレームワークである。
我々は、計算コスト、完成率、AIおよび生成されたレポートの人間専門家レビューを測定する様々なシナリオにおいて、エピデムIQを評価した。
論文 参考訳(メタデータ) (2025-09-24T18:54:56Z) - EPIC: Generative AI Platform for Accelerating HPC Operational Data Analytics [3.6462220158488985]
EPICは、運用データ分析を強化するために設計された、AI駆動のプラットフォームである。
階層的なマルチエージェントアーキテクチャを採用しており、トップレベルの大規模言語モデルがクエリ処理、推論、合成機能を提供する。
情報検索、記述分析、予測分析の3つの専門的な低レベルエージェントを編成する。
論文 参考訳(メタデータ) (2025-08-29T15:55:07Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology [0.8061245870721293]
LLM(Large Language Models)とLLMをベースとしたエージェントは、科学研究の加速に大きな期待を示している。
本稿では,バイオインフォマティクスベンチマーク(BixBench)について述べる。
オープンソースのカスタムエージェントフレームワークを用いて,2つのフロンティアLCMの性能評価を行った。
論文 参考訳(メタデータ) (2025-02-28T18:47:57Z) - Diagnosing Robotics Systems Issues with Large Language Models [5.30112395683561]
大規模言語モデル(LLM)は大量のデータを分析するのに優れている。
ここでは、この研究を、ロボットシステムの難解で、ほとんど探索されていない領域に拡張する。
論文 参考訳(メタデータ) (2024-10-06T11:58:12Z) - DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [18.577658530714505]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Can Large Language Models Serve as Data Analysts? A Multi-Agent Assisted Approach for Qualitative Data Analysis [4.539569292151314]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)における人間とロボットの協調を可能にする
本研究では,人間の意思決定支援をAIと相乗化して,さまざまな定性的データ分析手法を自動化するLLMベースのマルチエージェントシステムの設計と開発を行う。
論文 参考訳(メタデータ) (2024-02-02T13:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。