論文の概要: TimeSeriesGym: A Scalable Benchmark for (Time Series) Machine Learning Engineering Agents
- arxiv url: http://arxiv.org/abs/2505.13291v1
- Date: Mon, 19 May 2025 16:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.722795
- Title: TimeSeriesGym: A Scalable Benchmark for (Time Series) Machine Learning Engineering Agents
- Title(参考訳): TimeSeriesGym:(時系列)機械学習エンジニアリングエージェントのスケーラブルベンチマーク
- Authors: Yifu Cai, Xinyu Li, Mononito Goswami, Michał Wiliński, Gus Welter, Artur Dubrawski,
- Abstract要約: 人工知能(AI)エージェントを評価するためのスケーラブルなベンチマークフレームワークであるTimeSeriesGymを紹介する。
TimeSeriesGymには、複数のドメインやタスクにまたがるさまざまなソースからの課題が含まれている。
提出ファイルやコード,モデルなど,複数の研究成果物に対する評価機構を実装した。
- 参考スコア(独自算出の注目度): 17.296425855109426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TimeSeriesGym, a scalable benchmarking framework for evaluating Artificial Intelligence (AI) agents on time series machine learning engineering challenges. Existing benchmarks lack scalability, focus narrowly on model building in well-defined settings, and evaluate only a limited set of research artifacts (e.g., CSV submission files). To make AI agent benchmarking more relevant to the practice of machine learning engineering, our framework scales along two critical dimensions. First, recognizing that effective ML engineering requires a range of diverse skills, TimeSeriesGym incorporates challenges from diverse sources spanning multiple domains and tasks. We design challenges to evaluate both isolated capabilities (including data handling, understanding research repositories, and code translation) and their combinations, and rather than addressing each challenge independently, we develop tools that support designing multiple challenges at scale. Second, we implement evaluation mechanisms for multiple research artifacts, including submission files, code, and models, using both precise numeric measures and more flexible LLM-based evaluation approaches. This dual strategy balances objective assessment with contextual judgment. Although our initial focus is on time series applications, our framework can be readily extended to other data modalities, broadly enhancing the comprehensiveness and practical utility of agentic AI evaluation. We open-source our benchmarking framework to facilitate future research on the ML engineering capabilities of AI agents.
- Abstract(参考訳): 我々は時系列機械学習工学の課題に対して人工知能(AI)エージェントを評価するためのスケーラブルなベンチマークフレームワークであるTimeSeriesGymを紹介する。
既存のベンチマークにはスケーラビリティがなく、明確に定義された設定でモデルの構築に集中し、限られた研究成果物(CSVの提出ファイルなど)のみを評価する。
AIエージェントのベンチマークを機械学習エンジニアリングの実践とより関連付けるために、我々のフレームワークは2つの重要な側面に沿ってスケールする。
まず、効果的なMLエンジニアリングにはさまざまなスキルが必要であることを認識して、TimeSeriesGymは複数のドメインやタスクにまたがるさまざまなソースからの課題を取り入れている。
私たちは、分離された機能(データハンドリング、研究リポジトリの理解、コード翻訳など)とそれらの組み合わせの両方を評価するための課題を設計します。
第2に,複数の研究成果物(ファイル,コード,モデルなど)の評価機構を,正確な数値測度とより柔軟なLCMに基づく評価手法を用いて実装する。
この二重戦略は、客観的評価と文脈的判断のバランスをとる。
最初の焦点は時系列アプリケーションだが、我々のフレームワークは他のデータモダリティにも容易に拡張でき、エージェントAI評価の包括性と実用性を大きく向上できる。
AIエージェントのMLエンジニアリング機能に関する今後の研究を促進するため、ベンチマークフレームワークをオープンソースとして公開しています。
関連論文リスト
- MONAQ: Multi-Objective Neural Architecture Querying for Time-Series Analysis on Resource-Constrained Devices [16.639965422376303]
我々は,NASを多目的ニューラルアーキテクチャクエリータスクに再構成する新しいフレームワークMONAQを提案する。
MonAQはマルチモーダルな時系列入力とハードウェア制約を処理するマルチモーダルクエリ生成機能を備えている。
15のデータセットの実験では、MONAQで発見されたモデルは、手作りのモデルとNASベースラインの両方を上回っている。
論文 参考訳(メタデータ) (2025-05-15T16:35:33Z) - MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - Trust at Your Own Peril: A Mixed Methods Exploration of the Ability of Large Language Models to Generate Expert-Like Systems Engineering Artifacts and a Characterization of Failure Modes [0.0]
そこでは,人間の専門家が作成したSEアーティファクトをベンチマークとして用いた経験的探索の結果を報告する。
次に、AI生成されたアーティファクトとベンチマークを比較するために、2倍の混合メソッドアプローチを採用しました。
2つの素材は非常に似ているように見えるが、AIが生成したアーティファクトは深刻な障害モードを示しており、検出は困難である。
論文 参考訳(メタデータ) (2025-02-13T17:05:18Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z) - Mystique: Enabling Accurate and Scalable Generation of Production AI
Benchmarks [2.0315147707806283]
Mystiqueは、プロダクションAIベンチマーク生成のための正確でスケーラブルなフレームワークである。
Mystiqueは、オーバーヘッドランタイムとインスツルメンテーションの労力の観点から、軽量なデータ収集のためにスケーラブルである。
我々は,本手法をいくつかの実運用AIモデルで評価し,Mystiqueで生成されたベンチマークがオリジナルのAIモデルとよく似ていることを示す。
論文 参考訳(メタデータ) (2022-12-16T18:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。