論文の概要: Mimosa Framework: Toward Evolving Multi-Agent Systems for Scientific Research
- arxiv url: http://arxiv.org/abs/2603.28986v1
- Date: Mon, 30 Mar 2026 20:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.848415
- Title: Mimosa Framework: Toward Evolving Multi-Agent Systems for Scientific Research
- Title(参考訳): Mimosa Framework:科学研究のためのマルチエージェントシステムの進化を目指して
- Authors: Martin Legrand, Tao Jiang, Matthieu Feraud, Benjamin Navet, Yousouf Taghzouti, Fabien Gandon, Elise Dumont, Louis-Félix Nothias,
- Abstract要約: Mimosaは、タスク固有のマルチエージェントを自動的に合成し、それを反復的に洗練する進化中のマルチエージェントフレームワークである。
Mimosaは完全なオープンソースプラットフォームとしてリリースされ、コミュニティ主導のASRのためのオープンな基盤を提供することを目指している。
- 参考スコア(独自算出の注目度): 2.4251063179584436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Autonomous Scientific Research (ASR) systems, despite leveraging large language models (LLMs) and agentic architectures, remain constrained by fixed workflows and toolsets that prevent adaptation to evolving tasks and environments. We introduce Mimosa, an evolving multi-agent framework that automatically synthesizes task-specific multi-agent workflows and iteratively refines them through experimental feedback. Mimosa leverages the Model Context Protocol (MCP) for dynamic tool discovery, generates workflow topologies via a meta-orchestrator, executes subtasks through code-generating agents that invoke available tools and scientific software libraries, and scores executions with an LLM-based judge whose feedback drives workflow refinement. On ScienceAgentBench, Mimosa achieves a success rate of 43.1% with DeepSeek-V3.2, surpassing both single-agent baselines and static multi-agent configurations. Our results further reveal that models respond heterogeneously to multi-agent decomposition and iterative learning, indicating that the benefits of workflow evolution depend on the capabilities of the underlying execution model. Beyond these benchmarks, Mimosa modular architecture and tool-agnostic design make it readily extensible, and its fully logged execution traces and archived workflows support auditability by preserving every analytical step for inspection and potential replication. Combined with domain-expert guidance, the framework has the potential to automate a broad range of computationally accessible scientific tasks across disciplines. Released as a fully open-source platform, Mimosa aims to provide an open foundation for community-driven ASR.
- Abstract(参考訳): 現在の自律科学研究(ASR)システムは、大きな言語モデル(LLM)とエージェントアーキテクチャを活用しているが、進化するタスクや環境への適応を防止する固定されたワークフローやツールセットに制約されている。
我々は、タスク固有のマルチエージェントワークフローを自動的に合成し、実験的なフィードバックによって反復的に改善する、進化するマルチエージェントフレームワークであるMimosaを紹介した。
Mimosaは、動的ツール発見にモデルコンテキストプロトコル(MCP)を活用し、メタオーケストレータを介してワークフロートポロジを生成し、利用可能なツールや科学ソフトウェアライブラリを呼び出すコード生成エージェントを通じてサブタスクを実行し、フィードバックがワークフローの洗練を促進するLLMベースの判断器で実行をスコアする。
ScienceAgentBenchで、MimosaはDeepSeek-V3.2で43.1%の成功率を達成した。
さらに, モデルがマルチエージェント分解と反復学習に不均一に応答していることが明らかとなり, ワークフローの進化の利点は, 基礎となる実行モデルの能力に依存することが示唆された。
これらのベンチマーク以外にも、モジュールアーキテクチャとツールに依存しない設計は容易に拡張可能であり、完全にログ化された実行トレースとアーカイブされたワークフローは、インスペクションと潜在的なレプリケーションのためのすべての分析ステップを保存することで監査性をサポートする。
ドメイン・エキスパート・ガイダンスと組み合わせることで、このフレームワークは様々な分野にまたがる幅広い計算可能な科学的タスクを自動化することができる。
Mimosaは完全なオープンソースプラットフォームとしてリリースされ、コミュニティ主導のASRのためのオープンな基盤を提供することを目指している。
関連論文リスト
- MiroFlow: Towards High-Performance and Robust Open-Source Agent Framework for General Deep Research Tasks [95.86122998005612]
MiroFlowは、大規模言語モデル(LLM)のためのオープンソースのエージェントフレームワークである。
フレキシブルなオーケストレーションのためのエージェントグラフ、パフォーマンスを向上させるためのオプションの深い推論モード、安定した再現可能なパフォーマンスを保証するための堅牢な実行が含まれている。
GAIA、BrowseComp-EN/ZH、HLE、xBench-DeepSearch、FutureXなど、複数のエージェントベンチマークにおける最先端のパフォーマンスを一貫して達成している。
論文 参考訳(メタデータ) (2026-02-26T09:45:04Z) - EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - FROAV: A Framework for RAG Observation and Agent Verification - Lowering the Barrier to LLM Agent Research [0.5729426778193398]
本稿では,LLM(Large Language Models)エージェント研究を民主化する,オープンソースの研究プラットフォームであるFROAVを紹介する。
FROAVは、マルチステージのRetrieval-Augmented Generation (RAG)パイプラインと、厳格な"LLM-as-a-Judge"評価システムを実装している。
我々のフレームワークは、ノーコードワークフロー設計にn8n、フレキシブルバックエンドロジックにFastAPI、ヒューマン・イン・ザ・ループインタラクションにStreamlitを統合しています。
論文 参考訳(メタデータ) (2026-01-12T13:02:32Z) - An Agentic Framework for Autonomous Materials Computation [70.24472585135929]
大規模言語モデル(LLM)は、科学的発見を加速するための強力なツールとして登場した。
近年の進歩はLLMをエージェントフレームワークに統合し、複雑な科学実験のための検索、推論、ツールの使用を可能にしている。
本稿では,第一原理計算の信頼性向上を目的としたドメイン特化エージェントを提案する。
論文 参考訳(メタデータ) (2025-12-22T15:03:57Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - AgentSquare: Automatic LLM Agent Search in Modular Design Space [16.659969168343082]
大規模言語モデル(LLM)は、幅広い複雑なタスクを処理できるエージェントシステムの急速な成長をもたらした。
Modularized LLM Agent Search (MoLAS) という新しい研究課題を紹介した。
論文 参考訳(メタデータ) (2024-10-08T15:52:42Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。