論文の概要: Towards Adaptive ML Benchmarks: Web-Agent-Driven Construction, Domain Expansion, and Metric Optimization
- arxiv url: http://arxiv.org/abs/2509.09321v1
- Date: Thu, 11 Sep 2025 10:10:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.333138
- Title: Towards Adaptive ML Benchmarks: Web-Agent-Driven Construction, Domain Expansion, and Metric Optimization
- Title(参考訳): 適応型MLベンチマークに向けて: Web-Agent-Driven Construction, Domain Expansion, Metric Optimization
- Authors: Hangyi Jia, Yuxi Qian, Hanwen Tong, Xinhui Wu, Lin Chen, Feng Wei,
- Abstract要約: TAM Benchは、エンドツーエンドの機械学習タスクで大規模言語モデル(LLM)を評価するためのベンチマークである。
3つの重要なイノベーションは、ブラウザの自動化とLLMベースのタスク獲得システムである。
150のキュレートされたAutoMLタスクに基づいて、異なるサイズのベンチマークサブセットを3つ構築する。
- 参考スコア(独自算出の注目度): 8.356074728041202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have enabled the emergence of general-purpose agents for automating end-to-end machine learning (ML) workflows, including data analysis, feature engineering, model training, and competition solving. However, existing benchmarks remain limited in task coverage, domain diversity, difficulty modeling, and evaluation rigor, failing to capture the full capabilities of such agents in realistic settings. We present TAM Bench, a diverse, realistic, and structured benchmark for evaluating LLM-based agents on end-to-end ML tasks. TAM Bench features three key innovations: (1) A browser automation and LLM-based task acquisition system that automatically collects and structures ML challenges from platforms such as Kaggle, AIcrowd, and Biendata, spanning multiple task types and data modalities (e.g., tabular, text, image, graph, audio); (2) A leaderboard-driven difficulty modeling mechanism that estimates task complexity using participant counts and score dispersion, enabling scalable and objective task calibration; (3) A multi-dimensional evaluation framework incorporating performance, format compliance, constraint adherence, and task generalization. Based on 150 curated AutoML tasks, we construct three benchmark subsets of different sizes -- Lite, Medium, and Full -- designed for varying evaluation scenarios. The Lite version, with 18 tasks and balanced coverage across modalities and difficulty levels, serves as a practical testbed for daily benchmarking and comparative studies.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、データ分析、機能エンジニアリング、モデルトレーニング、競合解決を含むエンドツーエンド機械学習(ML)ワークフローを自動化する汎用エージェントの出現を可能にしている。
しかし、既存のベンチマークはタスクカバレッジ、ドメインの多様性、難易度モデリング、評価の厳密さに限られており、現実的な環境ではそのようなエージェントの能力をフルに捉えられなかった。
エンド・ツー・エンドのMLタスク上でLLMベースのエージェントを評価するための多様で現実的で構造化されたベンチマークであるTAM Benchを提案する。
ブラウザの自動化とLLMベースのタスク取得システムで,Kaggle, AIcrowd, BiendataなどのプラットフォームからMLの課題を自動的に収集し,構造化する。複数のタスクタイプとデータモダリティ(例えば,表,テキスト,画像,グラフ,オーディオ)にまたがる。
150のキュレートされたAutoMLタスクに基づいて、さまざまな評価シナリオのために設計された3つのベンチマークサブセット(Lite、Medium、Full)を構築します。
Liteバージョンは18のタスクと、モダリティと難易度をまたいだバランスの取れたカバレッジを持ち、日々のベンチマークや比較研究のための実践的なテストベッドとして機能する。
関連論文リスト
- Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments [11.97783742296183]
Embodied Mobile Manipulation in Open Environmentsは、エージェントがユーザーの指示を解釈し、連続した空間で長時間の日常的なタスクを実行する必要があるベンチマークである。
Open EnvironmentsにおけるEmbodied Mobile Manipulationは、より多様な評価のための3つの新しいメトリクスとともに、ハイレベルで低レベルな実施タスクを統一されたフレームワークにシームレスに統合します。
We design model, a sophisticated agent system, a LLM with Direct Preference Optimization (DPO), light weighted navigation and operation model, and multiple error detection mechanism。
論文 参考訳(メタデータ) (2025-03-11T16:42:36Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - ML-Dev-Bench: Comparative Analysis of AI Agents on ML development workflows [1.3654846342364308]
本稿ではML-Dev-Benchについて述べる。ML-Dev-Benchは機械学習開発タスクにおけるエージェント機能のテストを目的としたベンチマークである。
我々は、30のタスクの多様なセットでReAct、Openhands、AIDEの3つのエージェントを評価します。
コミュニティの利益のためのベンチマークをオープンソースにしています。
論文 参考訳(メタデータ) (2025-02-03T00:04:49Z) - MAML-en-LLM: Model Agnostic Meta-Training of LLMs for Improved In-Context Learning [43.512739869120125]
大規模言語モデル(LLM)のメタトレーニング手法であるMAML-en-LLMを提案する。
MAML-en-LLMは、解離したタスクでうまく機能するだけでなく、目に見えないタスクに適応する真の一般化可能なパラメータを学習することができる。
我々は、MAML-en-LLMが、目に見えないドメインと見えないドメインのトレーニングデータが少ない設定において、ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-19T04:49:42Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。