論文の概要: TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks
- arxiv url: http://arxiv.org/abs/2603.05764v1
- Date: Thu, 05 Mar 2026 23:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.697251
- Title: TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks
- Title(参考訳): TML-Bench: タブラルMLタスクのデータサイエンスエージェントのベンチマーク
- Authors: Mykola Pinchuk,
- Abstract要約: 本稿では、Kaggleスタイルのタスクに関するデータサイエンスエージェントのベンチマークであるTML-Benchを紹介する。
本論文は,カグル競技における10個のOSS LLMと3つの時間予算について評価する。
MiniMax-M2.1 モデルは4つの競技で最高の総合成績を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous coding agents can produce strong tabular baselines quickly on Kaggle-style tasks. Practical value depends on end-to-end correctness and reliability under time limits. This paper introduces TML-Bench, a tabular benchmark for data science agents on Kaggle-style tasks. This paper evaluates 10 OSS LLMs on four Kaggle competitions and three time budgets (240s, 600s, and 1200s). Each model is run five times per task and budget. A run is successful if it produces a valid submission and a private-holdout score on hidden labels that are not accessible to the agent. This paper reports median performance, success rates, and run-to-run variability. MiniMax-M2.1 model achieves the best aggregate performance score on all four competitions under the paper's primary aggregation. Average performance improves with larger time budgets. Scaling is noisy for some individual models at the current run count. Code and materials are available at https://github.com/MykolaPinchuk/TML-bench/tree/master.
- Abstract(参考訳): 自動符号化エージェントは、Kaggleスタイルのタスクで強力な表のベースラインを素早く作成できる。
実用的価値は、時間制限下でのエンドツーエンドの正確性と信頼性に依存します。
本稿では、Kaggleスタイルのタスクにおけるデータサイエンスエージェントのための表型ベンチマークであるTML-Benchを紹介する。
本稿では,Kaggleコンペティション4回,タイム予算3回(240,600,1200)で10個のOSS LLMを評価した。
各モデルはタスクと予算毎に5回実行されます。
エージェントがアクセスできない隠されたラベルに対して、有効な提出書とプライベートホールドアウトスコアを生成すると、実行は成功します。
本稿では,中央値の性能,成功率,実行時変動について報告する。
MiniMax-M2.1モデルは、論文の一次集計の下での4つの競技で最高の集計性能を達成する。
平均的なパフォーマンスは、より大きな時間予算で改善します。
スケーリングは、現在の実行回数で、いくつかの個々のモデルにとってうるさい。
コードと資料はhttps://github.com/MykolaPinchuk/TML-bench/tree/masterで入手できる。
関連論文リスト
- Does SWE-Bench-Verified Test Agent Ability or Model Memory? [2.937612609787308]
SWE-Bench-Verifiedは500の課題からなるデータセットである。
このベンチマークは、モデルのトレーニングデータと重複する可能性がある。
ベンチマークに提出されたトップパフォーマンスエージェントに頻繁に現れる2つのClaudeモデルをテストする。
論文 参考訳(メタデータ) (2025-12-11T02:11:06Z) - LiveBench: A Challenging, Contamination-Limited LLM Benchmark [93.57775429120488]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから405Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新され、時間とともに新しいタスクとより難しいタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - SheetAgent: Towards A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models [45.930510174309845]
大規模言語モデル(LLM)は,最近,スプレッドシートの自動操作のために試みられている。
SheetAgentはPlanner、Informer、Retrieverの3つの共同モジュールで構成されている。
SheetAgentはベースラインよりも複数のベンチマークで20~40%のパスレート改善を実現している。
論文 参考訳(メタデータ) (2024-03-06T11:48:08Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Foundation Model is Efficient Multimodal Multitask Model Selector [47.017463595702274]
ブルートフォースアプローチは、すべてのターゲットデータセット上のすべてのモデルを微調整し、高い計算コストをもたらす。
マルチタスクモデルセレクタ(EMMS)を提案し,多様なラベル形式を統一的な雑音ラベル埋め込みに変換する。
EMMSは、事前訓練されたモデルの転送可能性を評価するのに十分な高速で効果的で汎用的であり、マルチタスクシナリオにおける最初のモデル選択方法である。
論文 参考訳(メタデータ) (2023-08-11T17:54:44Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。