Fugu-MT 論文翻訳(概要): MiroFlow: Towards High-Performance and Robust Open-Source Agent Framework for General Deep Research Tasks

論文の概要: MiroFlow: Towards High-Performance and Robust Open-Source Agent Framework for General Deep Research Tasks

arxiv url: http://arxiv.org/abs/2602.22808v1
Date: Thu, 26 Feb 2026 09:45:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.62884
Title: MiroFlow: Towards High-Performance and Robust Open-Source Agent Framework for General Deep Research Tasks
Title（参考訳）: MiroFlow: 汎用研究タスクのための高性能でロバストなオープンソースエージェントフレームワーク
Authors: Shiqian Su, Sen Xing, Xuan Dong, Muyan Zhong, Bin Wang, Xizhou Zhu, Yuntao Chen, Wenhai Wang, Yue Deng, Pengxiang Zhu, Ziyuan Liu, Tiantong Li, Jiaheng Yu, Zhe Chen, Lidong Bing, Jifeng Dai,
Abstract要約: MiroFlowは、大規模言語モデル(LLM)のためのオープンソースのエージェントフレームワークである。フレキシブルなオーケストレーションのためのエージェントグラフ、パフォーマンスを向上させるためのオプションの深い推論モード、安定した再現可能なパフォーマンスを保証するための堅牢な実行が含まれている。 GAIA、BrowseComp-EN/ZH、HLE、xBench-DeepSearch、FutureXなど、複数のエージェントベンチマークにおける最先端のパフォーマンスを一貫して達成している。
参考スコア（独自算出の注目度）: 95.86122998005612
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable progress of large language models (LLMs), the capabilities of standalone LLMs have begun to plateau when tackling real-world, complex tasks that require interaction with external tools and dynamic environments. Although recent agent frameworks aim to enhance model autonomy through tool integration and external interaction, they still suffer from naive workflows, unstable performance, limited support across diverse benchmarks and tasks, and heavy reliance on costly commercial APIs. In this work, we propose a high-performance and robust open-source agent framework, termed MiroFlow, which incorporates an agent graph for flexible orchestration, an optional deep reasoning mode to enhance performance, and a robust workflow execution to ensure stable and reproducible performance. Extensive experiments demonstrate that MiroFlow consistently achieves state-of-the-art performance across multiple agent benchmarks, including GAIA, BrowseComp-EN/ZH, HLE, xBench-DeepSearch, and notably FutureX. We hope it could serve as an easily accessible, reproducible, and comparable baseline for the deep research community.
Abstract（参考訳）: 大規模言語モデル(LLM)の目覚ましい進歩にもかかわらず、外部ツールや動的環境とのインタラクションを必要とする複雑なタスクに対処する際、スタンドアロンのLLMの能力が高騰し始めた。最近のエージェントフレームワークは、ツール統合と外部インタラクションによるモデルの自律性向上を目標としているが、それでも、単純なワークフロー、不安定なパフォーマンス、さまざまなベンチマークやタスクに対するサポートの制限、コストのかかる商用APIへの依存に悩まされている。本研究では、フレキシブルなオーケストレーションのためのエージェントグラフ、パフォーマンス向上のためのオプションの深い推論モード、安定かつ再現可能なパフォーマンスを保証するための堅牢なワークフロー実行を含む、高性能で堅牢なオープンソースエージェントフレームワークであるMiroFlowを提案する。大規模な実験によると、MiroFlowはGAIA、BrowseComp-EN/ZH、HLE、xBench-DeepSearch、特にFutureXなど、複数のエージェントベンチマークで一貫して最先端のパフォーマンスを実現している。深層研究コミュニティにとって、容易にアクセス可能で再現可能で、同等のベースラインとして機能することを期待しています。

関連論文リスト

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文参考訳（メタデータ） (2026-02-10T18:55:41Z)
LongCat-Flash-Thinking-2601 Technical Report [134.89732115690705]
LongCat-Flash-Thinking-2601はオープンソースのMixture-of-Experts (MoE)推論モデルである。 LongCat-Flash-Thinking-2601は、幅広いエージェントベンチマーク上で、オープンソースモデル間の最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2026-01-23T13:20:09Z)
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文参考訳（メタデータ） (2025-11-17T23:57:24Z)
Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything [12.274140974616747]
MLLM(Multimodal large language model)は強力な能力を示すが、固定されたモダリティペアに限られる。本稿では,既存の基盤モデルをマスタエージェントシステムで協調するエージェント-オムニフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-04T18:59:09Z)
Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution [48.7788770680643]
Flash-Searcherは、新しい並列エージェント推論フレームワークである。複雑なタスクを明示的な依存関係でサブタスクに分解し、独立した推論パスの同時実行を可能にする。 BrowseCompでは67.7%の精度で、xbench-DeepSearchでは83%、エージェントの実行手順は現在のフレームワークに比べて最大35%削減されている。
論文参考訳（メタデータ） (2025-09-29T17:39:30Z)
CREW-WILDFIRE: Benchmarking Agentic Multi-Agent Collaborations at Scale [4.464959191643012]
我々は、次世代マルチエージェントエージェントAIフレームワークを評価するために設計されたオープンソースのベンチマークであるCREW-Wildfireを紹介する。 CREW-Wildfireは、大きな地図、異種エージェント、部分観測可能性、ダイナミックス、長期計画目的を含む手続き的に生成された山火事対応シナリオを提供する。我々は、最先端のLLMベースのマルチエージェントエージェントAIフレームワークの実装と評価を行い、重要なパフォーマンスギャップを明らかにした。
論文参考訳（メタデータ） (2025-07-07T16:33:42Z)
HAWK: A Hierarchical Workflow Framework for Multi-Agent Collaboration [3.2588674134593942]
マルチエージェントシステムは、クロスプラットフォームの相互運用性、動的タスクスケジューリング、効率的なリソース共有において永続的な課題に直面している。階層型エージェント (Hawk) は, ユーザ, オペレータ, エージェント, リソースの5つのレイヤから構成され, 16の標準化インターフェースでサポートされているモジュール型フレームワークである。 Hawkはタスク解析、ワークフローオーケストレーション、インテリジェントスケジューリング、リソース呼び出し、データ同期をカバーしたエンドツーエンドパイプラインを提供する。
論文参考訳（メタデータ） (2025-07-05T15:03:53Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。 ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。 ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文参考訳（メタデータ） (2024-09-02T17:44:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。