論文の概要: MARS: Modular Agent with Reflective Search for Automated AI Research
- arxiv url: http://arxiv.org/abs/2602.02660v1
- Date: Mon, 02 Feb 2026 19:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.00748
- Title: MARS: Modular Agent with Reflective Search for Automated AI Research
- Title(参考訳): MARS: 自動AI研究のための反射探索を備えたモジュールエージェント
- Authors: Jiefeng Chen, Bhavana Dalvi Mishra, Jaehyun Nam, Rui Meng, Tomas Pfister, Jinsung Yoon,
- Abstract要約: 我々は自律型AI研究に最適化されたフレームワークMARSを紹介する。
MARSは,(1)コストを意識したモンテカルロ木探索(MCTS)による予算計画(Budget-Aware Planning)による実行コストとパフォーマンスを明示的にバランスさせる),(2)複雑なリポジトリを管理するために"Design-Decompose-Implement"パイプラインを使用するモジュール構成,(3)ソリューションの違いを分析して高信号の洞察を抽出することで,与信の割り当てに対処する反射記憶(Reference Reflective Memory)という3つの柱に依存している。
- 参考スコア(独自算出の注目度): 48.54202614558741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating AI research differs from general software engineering due to computationally expensive evaluation (e.g., model training) and opaque performance attribution. Current LLM-based agents struggle here, often generating monolithic scripts that ignore execution costs and causal factors. We introduce MARS (Modular Agent with Reflective Search), a framework optimized for autonomous AI research. MARS relies on three pillars: (1) Budget-Aware Planning via cost-constrained Monte Carlo Tree Search (MCTS) to explicitly balance performance with execution expense; (2) Modular Construction, employing a "Design-Decompose-Implement" pipeline to manage complex research repositories; and (3) Comparative Reflective Memory, which addresses credit assignment by analyzing solution differences to distill high-signal insights. MARS achieves state-of-the-art performance among open-source frameworks on MLE-Bench under comparable settings, maintaining competitiveness with the global leaderboard's top methods. Furthermore, the system exhibits qualitative "Aha!" moments, where 63% of all utilized lessons originate from cross-branch transfer, demonstrating that the agent effectively generalizes insights across search paths.
- Abstract(参考訳): AI研究の自動化は、計算に高価な評価(例えば、モデルトレーニング)と不透明なパフォーマンス属性によって、一般的なソフトウェア工学とは異なる。
現在のLLMベースのエージェントは、実行コストや因果要因を無視したモノリシックなスクリプトを生成することが多い。
我々は自律型AI研究に最適化されたフレームワークMARS(Modular Agent with Reflective Search)を紹介する。
MARSは,(1)コスト制約によるモンテカルロ木探索(MCTS)による予算計画(Budget-Aware Planning)による実行費用とパフォーマンスを明示的にバランスさせる),(2)複雑な研究レポジトリを管理するために"Design-Decompose-Implement"パイプラインを使用するモジュール構成,(3)高信号の洞察を抽出する解差を分析することで,与信代入に対処する比較リフレクティブメモリという3つの柱に依存している。
MARSは、MLE-Bench上のオープンソースのフレームワーク間で、同等の設定で最先端のパフォーマンスを達成し、グローバルなリーダーボードのトップメソッドとの競合性を維持する。
さらに、このシステムは定性的な「アハ!」モーメントを示し、これらのうち63%がクロスブランチ転送から始まり、エージェントが探索経路を横断する洞察を効果的に一般化することを実証している。
関連論文リスト
- Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z) - AutoMind: Adaptive Knowledgeable Agent for Automated Data Science [70.33796196103499]
LLM(Large Language Model)エージェントは、現実世界のデータサイエンス問題に対処する大きな可能性を示している。
既存のフレームワークは、厳格で、事前定義された、柔軟性のないコーディング戦略に依存している。
適応的で知識のあるLLMエージェントフレームワークであるAutoMindを紹介する。
論文 参考訳(メタデータ) (2025-06-12T17:59:32Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research [70.72318131988102]
MLR-Benchは、オープンエンド機械学習研究においてAIエージェントを評価するための包括的なベンチマークである。
MLR-Benchは,(1)NeurIPS, ICLR, ICMLのさまざまなMLトピックを対象としたワークショップから得られた201のリサーチタスク,(2)LLMベースのレビュアーと慎重に設計されたレビュールーリックを組み合わせた自動評価フレームワーク,(3)MLR-Agent,研究タスクを4段階(アイデア生成,提案定式化,実験,論文執筆)で完了するモジュールエージェントの足場である。
論文 参考訳(メタデータ) (2025-05-26T13:18:37Z) - OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problems with Reasoning LLM [15.260794368585692]
自動オペレーションリサーチ問題解決のためのLLMを推論するAIエージェントフレームワークであるOR-LLM-Agentを提案する。
GPT-o3, Gemini 2.5 Pro, DeepSeek-R1, ORLMなどの高度な手法よりも, OR-LLM-Agentの精度を7%以上向上させることを示す。
論文 参考訳(メタデータ) (2025-03-13T03:40:50Z) - Knowledge Retrieval Based on Generative AI [4.9328530417790954]
本研究は,中国語ウィキペディアとLawbankを検索源として用いたRAG(Retrieval-Augmented Generation)に基づく質問応答システムを開発した。
このシステムは,BGE-M3を用いて高関係な検索結果を検索し,BGE-rerankerを用いてクエリの関連性に基づいてそれらの検索結果を並べ替える。
論文 参考訳(メタデータ) (2025-01-08T17:29:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。