Fugu-MT 論文翻訳(概要): Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering

論文の概要: Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering

arxiv url: http://arxiv.org/abs/2510.11694v1
Date: Mon, 13 Oct 2025 17:54:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 18:06:30.497322
Title: Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering
Title（参考訳）: Operand Quant: 自律機械学習エンジニアリングのための単一エージェントアーキテクチャ
Authors: Arjun Sahney, Ram Gorthi, Cezary Łastowski, Javier Vega,
Abstract要約: Operand Quantは、自律機械学習エンジニアリングのための単一エージェントアーキテクチャである。 MLE-ベンチマーク(2025年)では、オリンド・クァンタムが新しい最先端(SOTA)の結果を達成し、合計で75の問題に対して0.3956 +/- 0.0565のメダルを獲得した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Operand Quant, a single-agent, IDE-based architecture for autonomous machine learning engineering (MLE). Operand Quant departs from conventional multi-agent orchestration frameworks by consolidating all MLE lifecycle stages -- exploration, modeling, experimentation, and deployment -- within a single, context-aware agent. On the MLE-Benchmark (2025), Operand Quant achieved a new state-of-the-art (SOTA) result, with an overall medal rate of 0.3956 +/- 0.0565 across 75 problems -- the highest recorded performance among all evaluated systems to date. The architecture demonstrates that a linear, non-blocking agent, operating autonomously within a controlled IDE environment, can outperform multi-agent and orchestrated systems under identical constraints.
Abstract（参考訳）: 自律機械学習エンジニアリング(MLE)のための単一エージェントIDEベースのアーキテクチャであるOperand Quantを紹介した。 Operand Quantは、MLEライフサイクルステージ(探索、モデリング、実験、デプロイメント)を単一のコンテキスト対応エージェントに統合することで、従来のマルチエージェントオーケストレーションフレームワークから離れている。 MLE-ベンチマーク(2025年)では、オリンド・クァンタムが新しい最先端(SOTA)の結果を達成し、合計で75の問題で0.3956 +/- 0.0565のメダルを獲得した。このアーキテクチャは、制御されたIDE環境内で自律的に動作する線形非ブロッキングエージェントが、同じ制約の下でマルチエージェントおよびオーケストレーションシステムを上回る性能を発揮することを実証している。

関連論文リスト

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文参考訳（メタデータ） (2026-02-10T18:55:41Z)
Rethinking the Value of Multi-Agent Workflow: A Strong Single Agent Baseline [38.16649115214312]
一つのエージェントがKVキャッシュの再利用による効率上の利点を生かして均一性を実現できることを示す。本稿では,単一エージェントの実行を自動的に調整し,推論コストを削減するアルゴリズムを提案する。
論文参考訳（メタデータ） (2026-01-18T08:16:09Z)
Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.73992315826035]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。 Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文参考訳（メタデータ） (2025-12-31T04:25:11Z)
An Agentic Framework for Autonomous Materials Computation [70.24472585135929]
大規模言語モデル(LLM)は、科学的発見を加速するための強力なツールとして登場した。近年の進歩はLLMをエージェントフレームワークに統合し、複雑な科学実験のための検索、推論、ツールの使用を可能にしている。本稿では,第一原理計算の信頼性向上を目的としたドメイン特化エージェントを提案する。
論文参考訳（メタデータ） (2025-12-22T15:03:57Z)
ReX-MLE: The Autonomous Agent Benchmark for Medical Imaging Challenges [5.886200278450183]
ReX-MLE(ReX-MLE)は、ハイインパクトな医用イメージングコンペティションから導かれる20の課題のベンチマークである。以前のベンチマークとは異なり、ReX-MLEは完全なエンドツーエンドを評価し、エージェントはデータ前処理、モデルトレーニング、サブミッションを独立して管理する必要がある。ほとんどの応募は、人間専門家と比較して0パーセントのランクでランク付けされます。
論文参考訳（メタデータ） (2025-12-19T17:44:40Z)
Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文参考訳（メタデータ） (2025-10-06T10:44:04Z)
JoyAgent-JDGenie: Technical Report on the GAIA [27.025464023889853]
大規模言語モデルは、複雑な現実世界のタスクのための自律的なエージェントとして、ますます多くデプロイされている。本稿では,計画および実行エージェントを批判モデル投票と統合する汎用エージェントアーキテクチャ,作業層,意味層,手続き層にまたがる階層型メモリシステム,検索,コード実行,マルチモーダル解析のための洗練されたツールスイートを提案する。
論文参考訳（メタデータ） (2025-10-01T04:41:58Z)
Agentic Lybic: Multi-Agent Execution System with Tiered Reasoning and Orchestration [21.929452003961927]
Agentic Lybicは、アーキテクチャ全体が有限状態マシン(FSM)として動作する新しいマルチエージェントシステムである我々は,Agenic Lybicが50ステップで57.07%の成功率を達成し,既存の手法を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2025-09-14T03:22:27Z)
MetaAgent: Automatically Constructing Multi-Agent Systems Based on Finite State Machines [23.407716896592383]
本稿では,マルチエージェントシステムの自動生成が可能な有限状態マシンベースのフレームワークを提案する。タスク記述を前提として、MetaAgentはマルチエージェントシステムを設計し、最適化アルゴリズムによってそれを洗練する。マルチエージェントシステムがデプロイされると、有限状態マシンがエージェントのアクションと状態遷移を制御する。
論文参考訳（メタデータ） (2025-07-30T12:22:30Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
OmniNova:A General Multimodal Agent Framework [0.5439020425819]
特殊なツールを備えた大規模言語モデル(LLM)は、インテリジェントな自動化システムに新たな機会をもたらす。 OmniNovaはモジュール型のマルチエージェント自動化フレームワークで、言語モデルとWeb検索、クローリング、コード実行機能といった特殊なツールを組み合わせる。
論文参考訳（メタデータ） (2025-03-25T19:21:01Z)
ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。 ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。 ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文参考訳（メタデータ） (2024-09-02T17:44:10Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。