論文の概要: The FM Agent
- arxiv url: http://arxiv.org/abs/2510.26144v1
- Date: Thu, 30 Oct 2025 04:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.665911
- Title: The FM Agent
- Title(参考訳): FMエージェント
- Authors: Annan Li, Chufan Wu, Zengle Ge, Yee Hin Chong, Zhinan Hou, Lizhe Cao, Cheng Ju, Jianmin Wu, Huaiming Li, Haobo Zhang, Shenghao Feng, Mo Zhao, Fengzhi Qiu, Rui Yang, Mengmeng Zhang, Wenyi Zhu, Yingying Sun, Quan Sun, Shunhao Yan, Danyu Liu, Dawei Yin, Dou Shen,
- Abstract要約: 大規模言語モデル(LLM)は、自律型AI研究エージェントの開発を触媒している。
本稿では,新しい汎用マルチエージェントフレームワークであるFM Agentを紹介する。
我々のシステムは、演算研究、機械学習、GPUカーネル最適化、古典数学問題など、さまざまな領域で評価されてきた。
- 参考スコア(独自算出の注目度): 36.44000839818829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are catalyzing the development of autonomous AI research agents for scientific and engineering discovery. We present FM Agent, a novel and general-purpose multi-agent framework that leverages a synergistic combination of LLM-based reasoning and large-scale evolutionary search to address complex real-world challenges. The core of FM Agent integrates several key innovations: 1) a cold-start initialization phase incorporating expert guidance, 2) a novel evolutionary sampling strategy for iterative optimization, 3) domain-specific evaluators that combine correctness, effectiveness, and LLM-supervised feedback, and 4) a distributed, asynchronous execution infrastructure built on Ray. Demonstrating broad applicability, our system has been evaluated across diverse domains, including operations research, machine learning, GPU kernel optimization, and classical mathematical problems. FM Agent reaches state-of-the-art results autonomously, without human interpretation or tuning -- 1976.3 on ALE-Bench (+5.2\%), 43.56\% on MLE-Bench (+4.0pp), up to 20x speedups on KernelBench, and establishes new state-of-the-art(SOTA) results on several classical mathematical problems. Beyond academic benchmarks, FM Agent shows considerable promise for both large-scale enterprise R\&D workflows and fundamental scientific research, where it can accelerate innovation, automate complex discovery processes, and deliver substantial engineering and scientific advances with broader societal impact.
- Abstract(参考訳): 大規模言語モデル(LLM)は、科学と工学の発見のための自律型AI研究エージェントの開発を触媒している。
我々は,LLMに基づく推論と大規模進化探索の相乗的組み合わせを利用して,複雑な現実世界の課題に対処する,新規で汎用的なマルチエージェントフレームワークであるFM Agentを提案する。
FM Agentのコアは、いくつかの重要なイノベーションを統合している。
1)専門家指導を取り入れたコールドスタート初期化段階
2)反復最適化のための新しい進化的サンプリング戦略
3)正当性、有効性、LLMが監督するフィードバックを組み合わせたドメイン固有評価器
4) Ray上に構築された分散非同期実行インフラストラクチャ。
幅広い適用可能性を示すために,我々のシステムは,演算研究,機械学習,GPUカーネル最適化,古典数学問題など,さまざまな分野にまたがって評価されてきた。
1976.3 on ALE-Bench (+5.2\%), 43.56\% on MLE-Bench (+4.0pp), up to 20x speedup on KernelBench, and established new state-of-the-art (SOTA) results on several classical mathematical problem。
学術ベンチマーク以外にも、FM Agentは大規模な企業R&Dワークフローと、イノベーションを加速し、複雑な発見プロセスを自動化し、より広範な社会的影響で、実質的なエンジニアリングと科学的な進歩をもたらす、基本的な科学的研究の両方に、かなりの期待を示している。
関連論文リスト
- Metis-HOME: Hybrid Optimized Mixture-of-Experts for Multimodal Reasoning [16.309345268949745]
マルチモーダルな大推論モデルには 2つの重要な制限があります
単純なクエリでも計算コストのかかる推論を採用する傾向があり、効率の悪さにつながる。
We propose Metis-HOME: a Hybrid Optimized Mixture-of-Experts framework。
論文 参考訳(メタデータ) (2025-10-23T13:02:49Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.78397717362797]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science [70.1638335489284]
高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。
機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。
R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
論文 参考訳(メタデータ) (2025-05-20T06:07:00Z) - Agentic Mixture-of-Workflows for Multi-Modal Chemical Search [0.0]
大規模言語モデル(LLM)は、様々な領域にわたる有望な推論と自動化機能を示している。
CRAG-MoWは、異なるCRAG戦略を用いて複数のエージェントを編成する新しいパラダイムである。
我々は、小型分子、高分子、化学反応、およびマルチモーダル核磁気共鳴(NMR)スペクトル検索のCRAG-MoWをベンチマークした。
論文 参考訳(メタデータ) (2025-02-26T23:48:02Z) - MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - Optimizing Collaboration of LLM based Agents for Finite Element Analysis [1.5039745292757671]
本稿では,Large Language Models (LLM) 内の複数のエージェント間の相互作用について,プログラミングおよびコーディングタスクの文脈で検討する。
我々はAutoGenフレームワークを利用してエージェント間の通信を容易にし、各セットアップの40のランダムランからの成功率に基づいて異なる構成を評価する。
論文 参考訳(メタデータ) (2024-08-23T23:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。