論文の概要: ML2B: Multi-Lingual ML Benchmark For AutoML
- arxiv url: http://arxiv.org/abs/2509.22768v2
- Date: Mon, 06 Oct 2025 14:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 19:16:49.45578
- Title: ML2B: Multi-Lingual ML Benchmark For AutoML
- Title(参考訳): ML2B: AutoMLのための多言語MLベンチマーク
- Authors: Ekaterina Trofimova, Zosia Shamina, Maria Selifanova, Artem Zaitsev, Remi Savchuk, Maxim Minets, Daria Ozerova, Emil Sataev, Denis Zuenko, Andrey E. Ustyuzhanin,
- Abstract要約: ML2Bは多言語機械学習コード生成のための最初のベンチマークである。
評価には、データサイエンスパイプラインのエンドツーエンド評価のための自動フレームワークであるAIDEを用いる。
その結果,非英語タスクでは15~45%の性能低下が認められた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently demonstrated strong capabilities in generating machine learning (ML) code, enabling end-to-end pipeline construction from natural language instructions. However, existing benchmarks for ML code generation are mainly restricted to English, overlooking the global and multilingual nature of ML research and practice. To address this gap, we present ML2B, the first benchmark for evaluating multilingual ML code generation. ML2B consists of 30 Kaggle competitions translated into 13 natural languages, covering tabular, text, and image data types, with structured metadata and validated human-reviewed translations. For evaluation, we employ AIDE, an automated framework for end-to-end assessment of data science pipelines, and provide insights into cross-lingual model performance. Our results reveal substantial 15-45% performance degradation on non-English tasks, highlighting critical challenges in multilingual representation learning for code generation. The benchmark, evaluation framework, and comprehensive results are made available through our GitHub repository to facilitate future research in multilingual ML code generation: https://github.com/enaix/ml2b.
- Abstract(参考訳): 大規模言語モデル(LLM)は先頃、マシンラーニング(ML)コードの生成において、自然言語命令によるエンドツーエンドパイプライン構築を可能にする、強力な機能を実証した。
しかし、MLコード生成のための既存のベンチマークは主に英語に限られており、ML研究と実践の国際的および多言語的性質を見越している。
このギャップに対処するため,多言語MLコード生成のための最初のベンチマークであるML2Bを提案する。
ML2Bは、30のKaggleコンペティションを13の自然言語に翻訳し、表、テキスト、画像データタイプをカバーし、構造化メタデータと検証された人間レビューされた翻訳を含む。
評価には、データサイエンスパイプラインのエンドツーエンド評価のための自動フレームワークであるAIDEを使用し、言語間モデルパフォーマンスに関する洞察を提供する。
その結果、非英語タスクにおける性能劣化は15~45%となり、コード生成における多言語表現学習における重要な課題が浮き彫りになった。
ベンチマーク、評価フレームワーク、そして包括的な結果はGitHubリポジトリから入手でき、多言語MLコード生成の今後の研究を促進することができる。
関連論文リスト
- mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。