論文の概要: Rethinking the AI Scientist: Interactive Multi-Agent Workflows for Scientific Discovery
- arxiv url: http://arxiv.org/abs/2601.12542v1
- Date: Sun, 18 Jan 2026 19:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.67354
- Title: Rethinking the AI Scientist: Interactive Multi-Agent Workflows for Scientific Discovery
- Title(参考訳): AIサイエンティストを再考する:科学発見のためのインタラクティブなマルチエージェントワークフロー
- Authors: Lukas Weidener, Marko Brkić, Mihailo Jovanović, Ritvik Singh, Chiara Baccin, Emre Ulgac, Alex Dobrin, Aakaash Meduri,
- Abstract要約: 本稿では,数分で測定したターンアラウンド時間を用いて,インタラクティブな科学的調査を可能にするマルチエージェントシステムであるDeep Researchを紹介する。
このアーキテクチャは、永続的な世界状態を通じて統合された計画、データ分析、文献検索、新規性検出のための特殊なエージェントから構成される。
BixBenchの計算生物学ベンチマークによる評価は、最先端のパフォーマンスを示し、オープンレスポンスでは48.8%、マルチチョイス評価では64.5%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.17341675932416767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence systems for scientific discovery have demonstrated remarkable potential, yet existing approaches remain largely proprietary and operate in batch-processing modes requiring hours per research cycle, precluding real-time researcher guidance. This paper introduces Deep Research, a multi-agent system enabling interactive scientific investigation with turnaround times measured in minutes. The architecture comprises specialized agents for planning, data analysis, literature search, and novelty detection, unified through a persistent world state that maintains context across iterative research cycles. Two operational modes support different workflows: semi-autonomous mode with selective human checkpoints, and fully autonomous mode for extended investigations. Evaluation on the BixBench computational biology benchmark demonstrated state-of-the-art performance, achieving 48.8% accuracy on open response and 64.5% on multiple-choice evaluation, exceeding existing baselines by 14 to 26 percentage points. Analysis of architectural constraints, including open access literature limitations and challenges inherent to automated novelty assessment, informs practical deployment considerations for AI-assisted scientific workflows.
- Abstract(参考訳): 科学的発見のための人工知能システムは、驚くべき可能性を示しているが、既存のアプローチは、主にプロプライエタリであり、リアルタイム研究者のガイダンスを前に、研究サイクルに何時間も要するバッチ処理モードで運用されている。
本稿では,数分で測定したターンアラウンド時間を用いて,インタラクティブな科学的調査を可能にするマルチエージェントシステムであるDeep Researchを紹介する。
このアーキテクチャは、計画、データ分析、文献検索、ノベルティ検出のための特殊なエージェントを含み、反復的な研究サイクルのコンテキストを維持する永続的な世界状態を通じて統合されている。
2つの操作モードは、選択された人間チェックポイントを持つ半自律モードと、拡張された調査のための完全自律モードの2つのワークフローをサポートする。
BixBench計算生物学ベンチマークの評価では、48.8%がオープン応答、64.5%がマルチチョイス評価、14~26ポイントが既存のベースラインを上回った。
オープンアクセス文学の制限や、自動ノベルティアセスメントに固有の課題を含むアーキテクチャ上の制約の分析は、AI支援科学ワークフローに対する実践的なデプロイメントの考慮事項を通知する。
関連論文リスト
- Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - From Task Executors to Research Partners: Evaluating AI Co-Pilots Through Workflow Integration in Biomedical Research [0.16174969956296248]
この素早いレビューでは、前臨床生医学研究におけるAIシステムのベンチマークプラクティスについて検討する。
現在のベンチマークから欠落する4つの重要な次元に対処するプロセス指向評価フレームワークが提案されている。
これらの次元は、独立したタスク実行者としてではなく、研究の共同パイロットとしてAIシステムを評価するために不可欠である。
論文 参考訳(メタデータ) (2025-12-04T14:37:46Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - From Intention To Implementation: Automating Biomedical Research via LLMs [30.32209981487504]
本稿では,ドライラボ実験を含むバイオメディカル研究プロセス全体を合理化するための,初のエンドツーエンド自動システムであるBioResearcherを紹介する。
BioResearcherはモジュール型のマルチエージェントアーキテクチャを採用し、検索、文学処理、実験設計、プログラミングのための特殊エージェントを統合している。
生成されたプロトコルは、平均して5つの品質指標で典型的なエージェントシステムよりも22.0%優れています。
論文 参考訳(メタデータ) (2024-12-12T16:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。