論文の概要: Toward Evaluation Frameworks for Multi-Agent Scientific AI Systems
- arxiv url: http://arxiv.org/abs/2603.26718v1
- Date: Wed, 18 Mar 2026 16:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.103926
- Title: Toward Evaluation Frameworks for Multi-Agent Scientific AI Systems
- Title(参考訳): マルチエージェント科学AIシステム評価フレームワークの実現に向けて
- Authors: Marcin Abram,
- Abstract要約: 我々は科学的(マルチ)・エージェントシステムのベンチマークの課題を分析する。
汚染耐性問題の構築戦略について論じる。
量子科学に携わる研究者や技術者とのインタビューの結果について論じる。
- 参考スコア(独自算出の注目度): 0.22843885788439797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze the challenges of benchmarking scientific (multi)-agentic systems, including the difficulty of distinguishing reasoning from retrieval, the risks of data/model contamination, the lack of reliable ground truth for novel research problems, the complications introduced by tool use, and the replication challenges due to the continuously changing/updating knowledge base. We discuss strategies for constructing contamination-resistant problems, generating scalable families of tasks, and the need for evaluating systems through multi-turn interactions that better reflect real scientific practice. As an early feasibility test, we demonstrate how to construct a dataset of novel research ideas to test the out-of-sample performance of our system. We also discuss the results of interviews with several researchers and engineers working in quantum science. Through those interviews, we examine how scientists expect to interact with AI systems and how these expectations should shape evaluation methods.
- Abstract(参考訳): 本稿では,検索から推論を区別することの難しさ,データ/モデル汚染のリスク,新しい研究課題に対する信頼性の高い基礎的真理の欠如,ツール使用による合併症,継続的な変化・更新知識ベースによる複製問題など,科学的(マルチ)エージェントシステムのベンチマークの課題について分析する。
我々は,汚染耐性問題の構築,タスクのスケーラブルなファミリーの生成,および実際の科学的実践を反映したマルチターンインタラクションによるシステム評価の必要性について論じる。
早期実現可能性テストとして,新しい研究アイデアのデータセットを構築し,システムのアウト・オブ・サンプル性能をテストする方法を示す。
また、量子科学に携わる研究者や技術者とのインタビューの結果についても論じる。
これらのインタビューを通じて、科学者がAIシステムとどのように相互作用することを期待するか、そしてこれらの期待がどのように評価方法を形成するべきかを検討する。
関連論文リスト
- Pitfalls in Evaluating Interpretability Agents [91.49742416116635]
我々は,実験を反復的に設計し,仮説を洗練するエージェントシステムを構築した。
我々の研究は、複雑な自動解釈可能性システムを評価する上での根本的な課題を実証している。
論文 参考訳(メタデータ) (2026-03-20T16:27:17Z) - The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Cross-Disciplinary Knowledge Retrieval and Synthesis: A Compound AI Architecture for Scientific Discovery [1.5143261755366868]
BioSageは、LLMをRAGと統合した新しい複合AIアーキテクチャで、AI、データサイエンス、バイオメディカル、バイオセキュリティドメインにわたる発見を可能にするために、特殊なエージェントとツールを編成した。
本システムでは,クエリ計画と応答合成を備えた検索エージェントを含む,複数の特殊エージェントを特徴とし,引用支援型応答を持つドメイン間の知識検索を実現する。
我々の研究は、チャート、表、構造化された科学データに対するマルチモーダル検索と推論に重点を置いており、また、クロスディシプリナ発見のための総合的なマルチモーダルベンチマークも開発している。
論文 参考訳(メタデータ) (2025-11-23T05:33:11Z) - AgenticSciML: Collaborative Multi-Agent Systems for Emergent Discovery in Scientific Machine Learning [0.0]
AgenticSciMLは、10以上の専門AIエージェントが協力してSciMLソリューションを提案し、批判し、洗練する、協調的なマルチエージェントシステムである。
このフレームワークは、構造化された議論、検索強化されたメソッドメモリ、およびアンサンブル誘導された進化的検索を統合する。
その結果,AIエージェント間の協調推論は,創発的な方法論的革新をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2025-11-10T16:06:33Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [21.682416167339635]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。