論文の概要: ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks
- arxiv url: http://arxiv.org/abs/2311.09835v1
- Date: Thu, 16 Nov 2023 12:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:16:35.352992
- Title: ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks
- Title(参考訳): ML-Bench: 機械学習タスクのためのオープンソースのライブラリを活用する大規模言語モデル
- Authors: Yuliang Liu, Xiangru Tang, Zefan Cai, Junjie Lu, Yichi Zhang, Yanjun
Shao, Zexuan Deng, Helan Hu, Zengxian Yang, Kaikai An, Ruijun Huang, Shuzheng
Si, Sheng Chen, Haozhe Zhao, Zhengliang Li, Liang Chen, Yiming Zong, Yan
Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yujia Qin, Wangchunshu Zhou,
Yilun Zhao, Arman Cohan, Mark Gerstein
- Abstract要約: 大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
- 参考スコア(独自算出の注目度): 75.12666425091702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have shown promising performance in code generation
benchmarks. However, a considerable divide exists between these benchmark
achievements and their practical applicability, primarily attributed to
real-world programming's reliance on pre-existing libraries. Instead of
evaluating LLMs to code from scratch, this work aims to propose a new
evaluation setup where LLMs use open-source libraries to finish machine
learning tasks. Therefore, we propose ML-Bench, an expansive benchmark
developed to assess the effectiveness of LLMs in leveraging existing functions
in open-source libraries. Consisting of 10044 samples spanning 130 tasks over
14 notable machine learning GitHub repositories. In this setting, given a
specific machine learning task instruction and the accompanying README in a
codebase, an LLM is tasked to generate code to accomplish the task. This
necessitates the comprehension of long and language-code interleaved documents,
as well as the understanding of complex cross-file code structures, introducing
new challenges. Notably, while GPT-4 exhibits remarkable improvement over other
LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space
for improvement. We address these challenges by proposing ML-Agent, designed to
effectively navigate the codebase, locate documentation, retrieve code, and
generate executable code. Empirical results demonstrate that ML-Agent, built
upon GPT-4, results in further improvements. Code, data, and models are
available at \url{https://ml-bench.github.io/}.
- Abstract(参考訳): 大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
しかし、これらのベンチマークの成果と実用性の間にはかなりの違いがあり、これは主に既存のライブラリに依存した現実世界のプログラミングによるものである。
LLMをスクラッチからコードに評価するのではなく、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案する。
そこで本研究では,オープンソースライブラリの既存機能を活用したllmの有効性を評価するために開発したml-benchを提案する。
注目すべき14の機械学習GitHubリポジトリに130のタスクにまたがる10044のサンプルで構成されている。
この設定では、特定の機械学習タスク命令とそれに伴うREADMEをコードベースで与えると、LCMがタスクを達成するためのコードを生成する。
これは、長い言語コードをインターリーブした文書の理解と、複雑なクロスファイルのコード構造を理解し、新しい課題を導入する必要がある。
特に GPT-4 は他の LLM よりも著しく改善されているが、39.73 % のタスクしか達成できず、改善の余地が残されている。
コードベースを効果的にナビゲートし、ドキュメンテーションを特定し、コードを検索し、実行可能なコードを生成するML-Agentを提案することで、これらの課題に対処する。
GPT-4上に構築されたML-Agentは、さらなる改善をもたらすことが実証された。
コード、データ、モデルは \url{https://ml-bench.github.io/} で入手できる。
関連論文リスト
- PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Evaluating In-Context Learning of Libraries for Code Generation [38.86753078870638]
大規模言語モデル(LLM)は高いレベルのコード生成と理解能力を示す。
近年の研究では、大規模プロプライエタリなLLMがデモから新しいライブラリの使用法を学習できることが示されている。
論文 参考訳(メタデータ) (2023-11-16T07:37:25Z) - LLM4VV: Developing LLM-Driven Testsuite for Compiler Validation [7.979116939578324]
大規模言語モデル(LLM)は、自然言語を含む幅広いアプリケーションのための強力なツールである。
オープンソースLLM -- Meta Codellama、PhindによるCodellama、Deepseek Deepseek Coder、クローズソースLLM -- OpenAI GPT-3.5-Turbo、GPT-4-Turboなど、最先端のLLMの機能について検討する。
論文 参考訳(メタデータ) (2023-10-08T01:43:39Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - AskIt: Unified Programming Interface for Programming with Large Language
Models [0.0]
大規模言語モデル(LLM)は創発能力として知られるユニークな現象を示し、多くのタスクにまたがって適応性を示す。
本稿では,LLM用に特別に設計されたドメイン固有言語であるAskItを紹介する。
50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長の削減を実現した。
論文 参考訳(メタデータ) (2023-08-29T21:44:27Z) - The potential of LLMs for coding with low-resource and domain-specific
programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。
この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2023-07-24T17:17:13Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。