論文の概要: Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering
- arxiv url: http://arxiv.org/abs/2510.11694v1
- Date: Mon, 13 Oct 2025 17:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.497322
- Title: Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering
- Title(参考訳): Operand Quant: 自律機械学習エンジニアリングのための単一エージェントアーキテクチャ
- Authors: Arjun Sahney, Ram Gorthi, Cezary Łastowski, Javier Vega,
- Abstract要約: Operand Quantは、自律機械学習エンジニアリングのための単一エージェントアーキテクチャである。
MLE-ベンチマーク(2025年)では、オリンド・クァンタムが新しい最先端(SOTA)の結果を達成し、合計で75の問題に対して0.3956 +/- 0.0565のメダルを獲得した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Operand Quant, a single-agent, IDE-based architecture for autonomous machine learning engineering (MLE). Operand Quant departs from conventional multi-agent orchestration frameworks by consolidating all MLE lifecycle stages -- exploration, modeling, experimentation, and deployment -- within a single, context-aware agent. On the MLE-Benchmark (2025), Operand Quant achieved a new state-of-the-art (SOTA) result, with an overall medal rate of 0.3956 +/- 0.0565 across 75 problems -- the highest recorded performance among all evaluated systems to date. The architecture demonstrates that a linear, non-blocking agent, operating autonomously within a controlled IDE environment, can outperform multi-agent and orchestrated systems under identical constraints.
- Abstract(参考訳): 自律機械学習エンジニアリング(MLE)のための単一エージェントIDEベースのアーキテクチャであるOperand Quantを紹介した。
Operand Quantは、MLEライフサイクルステージ(探索、モデリング、実験、デプロイメント)を単一のコンテキスト対応エージェントに統合することで、従来のマルチエージェントオーケストレーションフレームワークから離れている。
MLE-ベンチマーク(2025年)では、オリンド・クァンタムが新しい最先端(SOTA)の結果を達成し、合計で75の問題で0.3956 +/- 0.0565のメダルを獲得した。
このアーキテクチャは、制御されたIDE環境内で自律的に動作する線形非ブロッキングエージェントが、同じ制約の下でマルチエージェントおよびオーケストレーションシステムを上回る性能を発揮することを実証している。
関連論文リスト
- Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - JoyAgent-JDGenie: Technical Report on the GAIA [27.025464023889853]
大規模言語モデルは、複雑な現実世界のタスクのための自律的なエージェントとして、ますます多くデプロイされている。
本稿では,計画および実行エージェントを批判モデル投票と統合する汎用エージェントアーキテクチャ,作業層,意味層,手続き層にまたがる階層型メモリシステム,検索,コード実行,マルチモーダル解析のための洗練されたツールスイートを提案する。
論文 参考訳(メタデータ) (2025-10-01T04:41:58Z) - Agentic Lybic: Multi-Agent Execution System with Tiered Reasoning and Orchestration [21.929452003961927]
Agentic Lybicは、アーキテクチャ全体が有限状態マシン(FSM)として動作する新しいマルチエージェントシステムである
我々は,Agenic Lybicが50ステップで57.07%の成功率を達成し,既存の手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-14T03:22:27Z) - MetaAgent: Automatically Constructing Multi-Agent Systems Based on Finite State Machines [23.407716896592383]
本稿では,マルチエージェントシステムの自動生成が可能な有限状態マシンベースのフレームワークを提案する。
タスク記述を前提として、MetaAgentはマルチエージェントシステムを設計し、最適化アルゴリズムによってそれを洗練する。
マルチエージェントシステムがデプロイされると、有限状態マシンがエージェントのアクションと状態遷移を制御する。
論文 参考訳(メタデータ) (2025-07-30T12:22:30Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - OmniNova:A General Multimodal Agent Framework [0.5439020425819]
特殊なツールを備えた大規模言語モデル(LLM)は、インテリジェントな自動化システムに新たな機会をもたらす。
OmniNovaはモジュール型のマルチエージェント自動化フレームワークで、言語モデルとWeb検索、クローリング、コード実行機能といった特殊なツールを組み合わせる。
論文 参考訳(メタデータ) (2025-03-25T19:21:01Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。