Fugu-MT 論文翻訳(概要): MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

論文の概要: MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

arxiv url: http://arxiv.org/abs/2410.07095v1
Date: Thu, 24 Oct 2024 12:35:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 22:27:10.071023
Title: MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
Title（参考訳）: MLE-bench: 機械学習エンジニアリングにおける機械学習エージェントの評価
Authors: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry,
Abstract要約: MLE-benchは、AIエージェントが機械学習エンジニアリングでどのように機能するかを測定するためのベンチマークである。われわれはKaggleから75のMLエンジニアリング関連のコンペを開催する。私たちはKaggleが公開しているリーダーボードを使って、各競技の人間ベースラインを確立します。
参考スコア（独自算出の注目度）: 35.237253622981264
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a diverse set of challenging tasks that test real-world ML engineering skills such as training models, preparing datasets, and running experiments. We establish human baselines for each competition using Kaggle's publicly available leaderboards. We use open-source agent scaffolds to evaluate several frontier language models on our benchmark, finding that the best-performing setup--OpenAI's o1-preview with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in 16.9% of competitions. In addition to our main results, we investigate various forms of resource scaling for AI agents and the impact of contamination from pre-training. We open-source our benchmark code (github.com/openai/mle-bench/) to facilitate future research in understanding the ML engineering capabilities of AI agents.
Abstract（参考訳）: 機械学習エンジニアリングにおけるAIエージェントのパフォーマンスを計測するベンチマークであるMLE-benchを紹介する。この目的のために、Kaggleによる75のMLエンジニアリング関連コンペティションをキュレートし、トレーニングモデル、データセットの準備、実験の実行など、現実のMLエンジニアリングスキルをテストする、さまざまな課題のセットを作成しました。私たちはKaggleが公開しているリーダーボードを使って、各競技の人間ベースラインを確立します。ベンチマークでいくつかのフロンティア言語モデルを評価するために、オープンソースのエージェントの足場を使用して、最高のパフォーマンスのセットアップ — OpenAIのo1-preview with AIDEの足場 -- が、少なくとも16.9%のコンペティションでカグル・ブロンズ・メダルのレベルを達成していることを発見した。本研究の主な成果に加えて,AIエージェントの様々な形態の資源スケーリングと,事前学習による汚染の影響について検討した。我々は、AIエージェントのMLエンジニアリング能力を理解するための将来の研究を促進するために、ベンチマークコード(github.com/openai/mle-bench/)をオープンソース化した。

関連論文リスト

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents [49.67355440164857]
AIRS-Benchは、最先端の機械学習論文から得られた20のタスクからなるスイートである。 Airs-Benchタスクは、研究ライフサイクル全体のエージェント能力を評価する。本稿では,AIRS-Benchタスク定義と評価コードをオープンソースとして公開し,自律科学研究のさらなる発展を促す。
論文参考訳（メタデータ） (2026-02-06T16:45:02Z)
AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench [65.21702462691933]
我々は、AI研究エージェントを候補ソリューションの空間をナビゲートする検索ポリシーとして形式化し、演算子を使ってそれらを反復的に修正する。我々の最良の探索戦略と演算子の組み合わせは、MLEベンチライトの最先端の成果を達成し、カグルメダルを39.6%から47.7%に引き上げることに成功した。
論文参考訳（メタデータ） (2025-07-03T11:59:15Z)
MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement [73.34265922786763]
我々は機械学習エージェントを構築するための新しいアプローチであるMLE-STARを提案する。 MLE-STARは、まず、検索エンジンを使用してWebから効果的なモデルを取得することにより、外部知識を活用する。 MLE-STARにより提案される効果的な戦略を用いた新しいアンサンブル手法を提案する。
論文参考訳（メタデータ） (2025-05-27T18:11:25Z)
R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science [70.1638335489284]
高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。 R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
論文参考訳（メタデータ） (2025-05-20T06:07:00Z)
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents [0.0]
OSUniverseは、高度なGUIナビゲーションAIエージェントのための複雑なマルチモーダルデスクトップ指向タスクのベンチマークである。タスクを、基本的な精度のクリックからマルチステップ、ディクスタリティ、精度、エージェントからの明確な思考といった複雑さのレベルに分割する。ベンチマークは手動で評価できるが、平均エラー率2%未満の自動検証機構も導入する。
論文参考訳（メタデータ） (2025-05-06T14:29:47Z)
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。 MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文参考訳（メタデータ） (2025-04-13T19:35:43Z)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文参考訳（メタデータ） (2025-02-20T12:28:23Z)
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level [73.14232472724758]
我々は、エンドツーエンドの自律データサイエンスエージェントであるAgent K v1.0を紹介する。経験から学ぶことによって、データサイエンスのライフサイクル全体を管理する。キー情報を選択的に保存して検索することで、長期記憶と短期記憶を最適化する。
論文参考訳（メタデータ） (2024-11-05T23:55:23Z)
ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文参考訳（メタデータ） (2024-10-29T21:38:42Z)
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。 VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文参考訳（メタデータ） (2024-08-12T17:44:17Z)
A Preliminary Study on Using Large Language Models in Software Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文参考訳（メタデータ） (2024-01-30T21:42:59Z)
Benchmarking Robustness and Generalization in Multi-Agent Systems: A Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文参考訳（メタデータ） (2023-08-30T07:16:11Z)
OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文参考訳（メタデータ） (2023-04-10T03:55:35Z)
The MineRL BASALT Competition on Learning from Human Feedback [58.17897225617566]
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。 Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
論文参考訳（メタデータ） (2021-07-05T12:18:17Z)
AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文参考訳（メタデータ） (2020-04-30T11:08:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。