論文の概要: DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science
- arxiv url: http://arxiv.org/abs/2602.24288v1
- Date: Fri, 27 Feb 2026 18:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.578264
- Title: DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science
- Title(参考訳): DARE-bench:データサイエンスにおけるLLMのモデリングとインストラクションの忠実度の評価
- Authors: Fan Shu, Yite Wang, Ruofan Wu, Boyi Liu, Zhewei Yao, Yuxiong He, Feng Yan,
- Abstract要約: DARE-benchは機械学習モデリングとデータサイエンスのインストラクションのためのベンチマークである。
6300のKaggleから派生したタスクで構成され、大規模なトレーニングデータと評価セットの両方を提供する。
DARE-benchトレーニングタスクを微調整に使用すると、モデルのパフォーマンスが大幅に向上する。
- 参考スコア(独自算出の注目度): 31.00353091375463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fast-growing demands in using Large Language Models (LLMs) to tackle complex multi-step data science tasks create an emergent need for accurate benchmarking. There are two major gaps in existing benchmarks: (i) the lack of standardized, process-aware evaluation that captures instruction adherence and process fidelity, and (ii) the scarcity of accurately labeled training data. To bridge these gaps, we introduce DARE-bench, a benchmark designed for machine learning modeling and data science instruction following. Unlike many existing benchmarks that rely on human- or model-based judges, all tasks in DARE-bench have verifiable ground truth, ensuring objective and reproducible evaluation. To cover a broad range of tasks and support agentic tools, DARE-bench consists of 6,300 Kaggle-derived tasks and provides both large-scale training data and evaluation sets. Extensive evaluations show that even highly capable models such as gpt-o4-mini struggle to achieve good performance, especially in machine learning modeling tasks. Using DARE-bench training tasks for fine-tuning can substantially improve model performance. For example, supervised fine-tuning boosts Qwen3-32B's accuracy by 1.83x and reinforcement learning boosts Qwen3-4B's accuracy by more than 8x. These significant improvements verify the importance of DARE-bench both as an accurate evaluation benchmark and critical training data.
- Abstract(参考訳): 複雑なマルチステップデータサイエンスタスクに取り組むためにLLM(Large Language Models)を使用するという要求が急速に高まっているため、正確なベンチマークが緊急に必要になる。
既存のベンチマークには2つの大きなギャップがある。
一 指示の遵守及びプロセスの忠実さを捉えた標準化されたプロセス認識評価の欠如
二 正確にラベル付けされた訓練データの不足
これらのギャップを埋めるために,機械学習モデリングとデータサイエンスの指導を行うためのベンチマークであるDARE-benchを導入する。
人またはモデルベースの判断に依存する既存のベンチマークとは異なり、DAREベンチのすべてのタスクは、客観的かつ再現可能な評価を確実にする基礎的な真実を検証している。
幅広いタスクをカバーし、エージェントツールをサポートするため、DARE-benchは6,300のKaggleから派生したタスクで構成され、大規模なトレーニングデータと評価セットを提供する。
大規模な評価では、特に機械学習モデリングタスクにおいて、gpt-o4-miniのような高機能モデルでさえ、優れたパフォーマンスを達成するのに苦労している。
DARE-benchトレーニングタスクを微調整に使用すると、モデルのパフォーマンスが大幅に向上する。
例えば、教師付き微調整はQwen3-32Bの精度を1.83倍、強化学習はQwen3-4Bの精度を8倍以上に向上させる。
これらの大幅な改善は、正確な評価ベンチマークと重要なトレーニングデータの両方として、DARE-benchの重要性を検証する。
関連論文リスト
- One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - A Survey on Efficient Vision-Language-Action Models [153.11669266922993]
VLA(Vision-Language-Action Model)は、物理世界の相互作用によってデジタル知識を橋渡しすることを目的とした、インテリジェンスにおける重要なフロンティアである。
これらの課題に緊急に対応する必要性から、この調査は、効率的なビジョン・ランゲージ・アクションモデルに関する最初の包括的なレビューを提示する。
論文 参考訳(メタデータ) (2025-10-27T17:57:33Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Statistical Uncertainty Quantification for Aggregate Performance Metrics in Machine Learning Benchmarks [0.0]
複数のタスクにまたがって集約されたメトリクスの不確かさを定量化するために,統計的手法がいかに用いられるかを示す。
これらの技術は、全体的なパフォーマンスが劣っているにもかかわらず、特定のタスクに対する特定のモデルの優位性のような洞察を浮き彫りにする。
論文 参考訳(メタデータ) (2025-01-08T02:17:34Z) - Error-driven Data-efficient Large Multimodal Model Tuning [35.20400815089843]
大規模マルチモーダルモデル (LMM) は、多くの学術ベンチマークで顕著な性能を示している。
本稿では,新しいタスクにジェネリックLMMを効率よく適応することを目的とした,エラー駆動型データ効率チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-20T08:07:11Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Validation of Practicality for CSI Sensing Utilizing Machine Learning [0.0]
我々は、人間の姿勢を認識するための5つの異なる機械学習モデルを開発し、評価する。
これらのモデルの精度は、異なるトレーニングデータでどのように変化するかを分析する。
データ収集に使用するモデルと異なる設定でモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T09:25:08Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Improving the Performance of Fine-Grain Image Classifiers via Generative
Data Augmentation [0.5161531917413706]
我々は、ロバスト生成アドリアルネットワーク(DAPPER GAN)の熟練した事前学習からデータ拡張を開発する。
DAPPER GANは、トレーニングイメージの新しいビューを自動的に生成するML分析支援ツールである。
本手法をStanford Carsデータセット上で実験的に評価し,車体形状とモデル分類精度の向上を実証した。
論文 参考訳(メタデータ) (2020-08-12T15:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。