Fugu-MT 論文翻訳(概要): Automating Code Adaptation for MLOps -- A Benchmarking Study on LLMs

論文の概要: Automating Code Adaptation for MLOps -- A Benchmarking Study on LLMs

arxiv url: http://arxiv.org/abs/2405.06835v1
Date: Fri, 10 May 2024 22:18:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-14 19:55:18.166976
Title: Automating Code Adaptation for MLOps -- A Benchmarking Study on LLMs
Title（参考訳）: MLOpsのためのコード適応を自動化する - LLMのベンチマーク研究
Authors: Harsh Patel, Buvaneswari A. Ramanan, Manzoor A. Khan, Thomas Williams, Brian Friedman, Lawrence Drabeck,
Abstract要約: 各種MLOps機能の自動達成におけるOpenAI(gpt-3.5-turbo)とWizardCoder(オープンソース,15Bパラメータ)モデルの性能評価を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper explores the possibilities of the current generation of Large Language Models for incorporating Machine Learning Operations (MLOps) functionalities into ML training code bases. We evaluate the performance of OpenAI (gpt-3.5-turbo) and WizardCoder (open-source, 15B parameters) models on the automated accomplishment of various MLOps functionalities in different settings. We perform a benchmarking study that assesses the ability of these models to: (1) adapt existing code samples (Inlining) with component-specific MLOps functionality such as MLflow and Weights & Biases for experiment tracking, Optuna for hyperparameter optimization etc., and (2) perform the task of Translation from one component of an MLOps functionality to another, e.g., translating existing GitPython library based version control code to Data Version Control library based. We also propose three different approaches that involve teaching LLMs to comprehend the API documentation of the components as a reference while accomplishing the Translation tasks. In our evaluations, the gpt-3.5-turbo model significantly outperforms WizardCoder by achieving impressive Pass@3 accuracy in model optimization (55% compared to 0% by WizardCoder), experiment tracking (100%, compared to 62.5% by WizardCoder), model registration (92% compared to 42% by WizardCoder) and hyperparameter optimization (83% compared to 58% by WizardCoder) on average, in their best possible settings, showcasing its superior code adaptability performance in complex MLOps tasks.
Abstract（参考訳）: 本稿では,機械学習操作(MLOps)機能をMLトレーニングコードベースに組み込むための,現行のLarge Language Modelsの可能性について検討する。各種MLOps機能の自動実行におけるOpenAI(gpt-3.5-turbo)とWizardCoder(オープンソース,15Bパラメータ)モデルの性能評価を行った。 1) 既存のコードサンプルをMLflowやWeights & Biasesといったコンポーネント固有のMLOps機能に適応させ、実験追跡やハイパーパラメータ最適化のためのOptuna、(2) MLOps機能のあるコンポーネントから別のコンポーネント、例えば既存のGitPythonライブラリベースのバージョン管理コードをData Version Controlライブラリベースに変換するタスクを実行する。また、翻訳タスクを遂行しながら、コンポーネントのAPIドキュメントを参照として理解するために、LCMを教える3つの異なるアプローチを提案する。我々の評価では、gpt-3.5-turboモデルは、モデル最適化におけるPass@3の精度(WizardCoderの0%よりも55%)、実験追跡(WizardCoderの62.5%より100%)、モデル登録(WizardCoderの42%より92%)、ハイパーパラメータ最適化(WizardCoderの58%より83%)などにおいて、可能な限りの環境でWizardCoderよりも優れており、複雑なMLOpsタスクにおいて優れたコード適応性性能を示している。

関連論文リスト

Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文参考訳（メタデータ） (2025-07-15T08:25:02Z)
CODEMENV: Benchmarking Large Language Models on Code Migration [11.735053997817765]
CODEMENVは、19のPythonとJavaパッケージにまたがる922のサンプルで構成されている。特定のバージョンと互換性のない関数の識別、関数定義の変更の検出、ターゲット環境へのコード適応という3つのコアタスクをカバーしている。 CODEMENV上での7つのLLMによる実験的評価では平均パス@1レートが26.50%となり、GPT-4Oは43.84%で最高スコアに達した。
論文参考訳（メタデータ） (2025-06-01T08:29:59Z)
Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.289275189295223]
本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文参考訳（メタデータ） (2025-05-29T19:06:14Z)
Improving Assembly Code Performance with Large Language Models via Reinforcement Learning [9.20863636863631]
大規模言語モデル(LLM)は、幅広いプログラミングタスクにおいて強力なパフォーマンスを示している。本稿では,PPO(Proximal Policy Optimization)を用いたLLM学習のための強化学習フレームワークを提案する。我々のモデルであるQwen2.5-Coder-7B-PPOは96.4%のテストパス率を獲得し、gcc-O3ベースライン上での平均速度は1.47倍である。
論文参考訳（メタデータ） (2025-05-16T17:40:45Z)
Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。 OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文参考訳（メタデータ） (2024-10-09T08:23:22Z)
Harnessing LLMs for API Interactions: A Framework for Classification and Synthetic Data Generation [0.0]
本稿では,自然言語入力を対応するAPI呼び出しに分類するために,Large Language Models (LLM) を統合する新しいシステムを提案する。本システムでは,単純な入力による複雑なソフトウェア機能の実行,インタラクション効率の向上,ソフトウェア利用障壁の低減を実現している。
論文参考訳（メタデータ） (2024-09-18T04:56:52Z)
SpecTra: Enhancing the Code Translation Ability of Language Models by Generating Multi-Modal Specifications [17.60108067953814]
大規模言語モデル(LLM)は、コード翻訳の自動化作業にますます利用されている。本稿では,新しい自己整合性フィルタを用いて,まず高品質な仕様を生成するマルチステージアプローチであるSpecTraを提案する。
論文参考訳（メタデータ） (2024-05-28T20:48:30Z)
Towards Modular LLMs by Building and Reusing a Library of LoRAs [64.43376695346538]
マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
論文参考訳（メタデータ） (2024-05-18T03:02:23Z)
SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。 FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文参考訳（メタデータ） (2024-03-23T14:04:48Z)
MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。 MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文参考訳（メタデータ） (2024-02-18T04:28:28Z)
ACPO: AI-Enabled Compiler Framework [1.752593459729982]
本稿では,AI-Enabled Compiler FrameworkのACPOについて述べる。 LLVMには、さまざまな最適化パスにMLモデルを使用するメリットを享受する、シンプルで包括的なツールが提供されている。 LLVMのO3と比較すると,ACPOはPolybenchで4.5%,Cbenchで2.4%の高速化を実現している。
論文参考訳（メタデータ） (2023-12-15T17:49:24Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
GEVO-ML: Optimizing Machine Learning Code with Evolutionary Computation [6.525197444717069]
GEVO-MLは、最適化の機会を発見し、機械学習カーネルのパフォーマンスをチューニングするためのツールである。モデルトレーニングと予測の両方のために、GEVO-MLを2つの異なるMLワークロードでデモする。 GEVO-MLはこれらのモデルに大きな改善を加え、モデル精度が2%の緩和で90.43%の性能向上を達成した。
論文参考訳（メタデータ） (2023-10-16T09:24:20Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
MLGOPerf: An ML Guided Inliner to Optimize Performance [7.314201117946244]
本稿では,LLVMのML-Inlinerを用いて,パフォーマンスを最適化する初のエンドツーエンドフレームワークを提案する。セカンダリMLモデルを使用して、リターゲット強化学習エージェントのトレーニングに使用する報酬を生成する。分析中の関数のインライン後のスピードアップを予測し、プライマリモデルのための高速なトレーニングフレームワークを可能にする。
論文参考訳（メタデータ） (2022-07-18T05:47:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。