論文の概要: Rethinking the AI Scientist: Interactive Multi-Agent Workflows for Scientific Discovery
- arxiv url: http://arxiv.org/abs/2601.12542v2
- Date: Tue, 27 Jan 2026 10:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:50.920685
- Title: Rethinking the AI Scientist: Interactive Multi-Agent Workflows for Scientific Discovery
- Title(参考訳): AIサイエンティストを再考する:科学発見のためのインタラクティブなマルチエージェントワークフロー
- Authors: Lukas Weidener, Marko Brkić, Mihailo Jovanović, Ritvik Singh, Chiara Baccin, Emre Ulgac, Alex Dobrin, Aakaash Meduri,
- Abstract要約: 本稿では,数分で測定したターンアラウンド時間を用いて,インタラクティブな科学的調査を可能にするマルチエージェントシステムであるDeep Researchを紹介する。
このアーキテクチャは、永続的な世界状態を通じて統合された計画、データ分析、文献検索、新規性検出のための特殊なエージェントから構成される。
BixBenchの計算生物学ベンチマークによる評価は、最先端のパフォーマンスを示し、オープンレスポンスでは48.8%、マルチチョイス評価では64.4%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.17341675932416767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence systems for scientific discovery have demonstrated remarkable potential, yet existing approaches remain largely proprietary and operate in batch-processing modes requiring hours per research cycle, precluding real-time researcher guidance. This paper introduces Deep Research, a multi-agent system enabling interactive scientific investigation with turnaround times measured in minutes. The architecture comprises specialized agents for planning, data analysis, literature search, and novelty detection, unified through a persistent world state that maintains context across iterative research cycles. Two operational modes support different workflows: semi-autonomous mode with selective human checkpoints, and fully autonomous mode for extended investigations. Evaluation on the BixBench computational biology benchmark demonstrated state-of-the-art performance, achieving 48.8% accuracy on open response and 64.4% on multiple-choice evaluation, exceeding existing baselines by 14 to 26 percentage points. Analysis of architectural constraints, including open access literature limitations and challenges inherent to automated novelty assessment, informs practical deployment considerations for AI-assisted scientific workflows.
- Abstract(参考訳): 科学的発見のための人工知能システムは、驚くべき可能性を示しているが、既存のアプローチは、主にプロプライエタリであり、リアルタイム研究者のガイダンスを前に、研究サイクルに何時間も要するバッチ処理モードで運用されている。
本稿では,数分で測定したターンアラウンド時間を用いて,インタラクティブな科学的調査を可能にするマルチエージェントシステムであるDeep Researchを紹介する。
このアーキテクチャは、計画、データ分析、文献検索、ノベルティ検出のための特殊なエージェントを含み、反復的な研究サイクルのコンテキストを維持する永続的な世界状態を通じて統合されている。
2つの操作モードは、選択された人間チェックポイントを持つ半自律モードと、拡張された調査のための完全自律モードの2つのワークフローをサポートする。
BixBench計算生物学ベンチマークの評価では、48.8%がオープン応答、64.4%がマルチチョイス評価、14~26ポイントが既存のベースラインを上回った。
オープンアクセス文学の制限や、自動ノベルティアセスメントに固有の課題を含むアーキテクチャ上の制約の分析は、AI支援科学ワークフローに対する実践的なデプロイメントの考慮事項を通知する。
関連論文リスト
- The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - From Task Executors to Research Partners: Evaluating AI Co-Pilots Through Workflow Integration in Biomedical Research [0.16174969956296248]
この素早いレビューでは、前臨床生医学研究におけるAIシステムのベンチマークプラクティスについて検討する。
現在のベンチマークから欠落する4つの重要な次元に対処するプロセス指向評価フレームワークが提案されている。
これらの次元は、独立したタスク実行者としてではなく、研究の共同パイロットとしてAIシステムを評価するために不可欠である。
論文 参考訳(メタデータ) (2025-12-04T14:37:46Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Cross-Disciplinary Knowledge Retrieval and Synthesis: A Compound AI Architecture for Scientific Discovery [1.5143261755366868]
BioSageは、LLMをRAGと統合した新しい複合AIアーキテクチャで、AI、データサイエンス、バイオメディカル、バイオセキュリティドメインにわたる発見を可能にするために、特殊なエージェントとツールを編成した。
本システムでは,クエリ計画と応答合成を備えた検索エージェントを含む,複数の特殊エージェントを特徴とし,引用支援型応答を持つドメイン間の知識検索を実現する。
我々の研究は、チャート、表、構造化された科学データに対するマルチモーダル検索と推論に重点を置いており、また、クロスディシプリナ発見のための総合的なマルチモーダルベンチマークも開発している。
論文 参考訳(メタデータ) (2025-11-23T05:33:11Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - Operationalizing Serendipity: Multi-Agent AI Workflows for Enhanced Materials Characterization with Theory-in-the-Loop [0.0]
SciLinkは、材料研究におけるセレンディピティーを運用するために設計された、オープンソースのマルチエージェント人工知能フレームワークである。
実験観察、新規性評価、理論シミュレーションの直接的な自動リンクを生成する。
本稿では,原子分解能およびハイパースペクトルデータへの応用,リアルタイムな人間専門家指導の統合能力,研究ループを閉じる能力について述べる。
論文 参考訳(メタデータ) (2025-08-07T04:59:17Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - From Intention To Implementation: Automating Biomedical Research via LLMs [30.32209981487504]
本稿では,ドライラボ実験を含むバイオメディカル研究プロセス全体を合理化するための,初のエンドツーエンド自動システムであるBioResearcherを紹介する。
BioResearcherはモジュール型のマルチエージェントアーキテクチャを採用し、検索、文学処理、実験設計、プログラミングのための特殊エージェントを統合している。
生成されたプロトコルは、平均して5つの品質指標で典型的なエージェントシステムよりも22.0%優れています。
論文 参考訳(メタデータ) (2024-12-12T16:35:05Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [21.682416167339635]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。