Fugu-MT 論文翻訳(概要): Deep-Bench: Deep Learning Benchmark Dataset for Code Generation

論文の概要: Deep-Bench: Deep Learning Benchmark Dataset for Code Generation

arxiv url: http://arxiv.org/abs/2502.18726v1
Date: Wed, 26 Feb 2025 00:43:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 17:39:51.161778
Title: Deep-Bench: Deep Learning Benchmark Dataset for Code Generation
Title（参考訳）: Deep-Bench: コード生成のためのディープラーニングベンチマークデータセット
Authors: Alireza Daghighfarsoodeh, Chung-Yu Wang, Hamed Taherkhani, Melika Sepidband, Mohammad Abdollahi, Hadi Hemmati, Hung Viet Pham,
Abstract要約: DeepBenchは関数レベルのディープラーニングコード生成のための新しいベンチマークデータセットである。最先端のLDMであるGPT-4oはDeepBenchでは31%の精度を達成し、DS-1000では60%よりも大幅に低かった。 DeepBench は LLM のパフォーマンスと DL ドメインの潜在的な改善領域に関する貴重な洞察を提供する。
参考スコア（独自算出の注目度）: 2.897621520197328
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning (DL) has revolutionized areas such as computer vision, natural language processing, and more. However, developing DL systems is challenging due to the complexity of DL workflows. Large Language Models (LLMs), such as GPT, Claude, Llama, Mistral, etc., have emerged as promising tools to assist in DL code generation, offering potential solutions to these challenges. Despite this, existing benchmarks such as DS-1000 are limited, as they primarily focus on small DL code snippets related to pre/post-processing tasks and lack a comprehensive coverage of the full DL pipeline, including different DL phases and input data types. To address this, we introduce DeepBench, a novel benchmark dataset designed for function-level DL code generation. DeepBench categorizes DL problems based on three key aspects: phases such as pre-processing, model construction, and training; tasks, including classification, regression, and recommendation; and input data types such as tabular, image, and text. GPT-4o -- the state-of-the-art LLM -- achieved 31% accuracy on DeepBench, significantly lower than its 60% on DS-1000. We observed similar difficulty for other LLMs (e.g., 28% vs. 54% for Claude, 21% vs. 41% for LLaMA, and 15% vs. 20% for Mistral). This result underscores DeepBench's greater complexity. We also construct a taxonomy of issues and bugs found in LLM-generated DL code, which highlights the distinct challenges that LLMs face when generating DL code compared to general code. Furthermore, our analysis also reveals substantial performance variations across categories, with differences of up to 7% among phases and 37% among tasks. These disparities suggest that DeepBench offers valuable insights into the LLMs' performance and areas for potential improvement in the DL domain.
Abstract（参考訳）: ディープラーニング(DL)はコンピュータビジョンや自然言語処理などの領域に革命をもたらした。しかし、DLワークフローの複雑さのため、DLシステムの開発は困難である。 GPT、Claude、Llama、Mistralなどの大規模言語モデル(LLM)は、DLコード生成を支援する有望なツールとして登場し、これらの課題に対する潜在的な解決策を提供している。それにもかかわらず、DS-1000のような既存のベンチマークは制限されており、主に前/後処理タスクに関連する小さなDLコードスニペットに焦点を当てており、DLフェーズや入力データタイプを含む完全なDLパイプラインを包括的にカバーしていない。これを解決するために,関数レベルのDLコード生成用に設計された新しいベンチマークデータセットであるDeepBenchを紹介する。 DeepBenchは、前処理、モデル構築、トレーニングのようなフェーズ、分類、回帰、レコメンデーションを含むタスク、表、画像、テキストなどの入力データタイプという3つの主要な側面に基づいてDL問題を分類する。最先端のLDMであるGPT-4oはDeepBenchでは31%の精度を達成し、DS-1000では60%よりも大幅に低かった。その他のLLMでは同様の難易度(Claudeでは28%対54%、LLaMAでは21%対41%、Mistralでは15%対20%)が観察された。この結果はDeepBenchの複雑さを裏付けるものだ。また、LCM生成したDLコードにみられる問題やバグの分類も構築し、一般コードと比較してLCMがDLコードを生成する際に直面する課題を浮き彫りにする。さらに、我々の分析では、各カテゴリで、最大7%のフェーズと37%のタスクで、大幅なパフォーマンスの変化が示されています。これらの相違は、DeepBenchがLLMのパフォーマンスとDLドメインの潜在的な改善領域に関する貴重な洞察を提供することを示している。

関連論文リスト

OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code Generation [20.75363011870647]
DynaCodeは、大規模言語モデル(LLM)のための動的で複雑さを意識したベンチマークである。複雑性を意識したメトリクスを使用して、LLMを体系的に評価し、コードの複雑さとコールグラフ構造の両方を取り入れる。最新の12のLCMでは、静的コード生成ベンチマークであるMBPP+と比較して平均パフォーマンスが16.8%から45.7%低下している。
論文参考訳（メタデータ） (2025-03-13T15:18:56Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
Fault Localization in Deep Learning-based Software: A System-level Approach [12.546853096298175]
本稿では,Deep Learning開発パイプライン全体を考慮したシステムレベルのフォールトローカライズアプローチであるFL4Deepを紹介する。 100の障害DLスクリプトを用いた評価では、FL4Deepは6つのDL関連障害のうち3つの精度で4つの従来手法より優れていた。
論文参考訳（メタデータ） (2024-11-12T20:32:36Z)
60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文参考訳（メタデータ） (2024-09-24T07:38:38Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:16:03Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Testing LLMs on Code Generation with Varying Levels of Prompt Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文参考訳（メタデータ） (2023-11-10T23:41:41Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
MEMO: Coverage-guided Model Generation For Deep Learning Library Testing [11.263121366956726]
テスト入力としてDLモデルを生成することによって、ディープラーニング(DL)ライブラリをテストするためのいくつかの技術が提案されている。しかし、これらの手法のテストの有効性は、生成されたDLモデルの多様性によって制約される。本稿では,レイヤタイプ,層ペア,層パラメータを探索することにより,多様なDLモデルを効率的に生成するMEMOを提案する。
論文参考訳（メタデータ） (2022-08-02T14:53:02Z)
Challenges in Migrating Imperative Deep Learning Programs to Graph Execution: An Empirical Study [4.415977307120617]
我々は、信頼できるがパフォーマンスのよい命令型DLコードを書くことに関わる課題と結果のバグを、データ駆動で分析します。命令型DLコードを効果的にハイブリダイズするために、いくつかの推奨事項、ベストプラクティス、アンチパターンを提示しました。
論文参考訳（メタデータ） (2022-01-24T21:12:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。