論文の概要: LLM & HPC:Benchmarking DeepSeek's Performance in High-Performance Computing Tasks
- arxiv url: http://arxiv.org/abs/2504.03665v1
- Date: Sat, 15 Mar 2025 21:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-13 07:51:53.284979
- Title: LLM & HPC:Benchmarking DeepSeek's Performance in High-Performance Computing Tasks
- Title(参考訳): LLM & HPC:高性能コンピューティングタスクにおけるDeepSeekのパフォーマンスのベンチマーク
- Authors: Noujoud Nader, Patrick Diehl, Steve Brandt, Hartmut Kaiser,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学の幅広い分野に適用されている。
本稿では,最近のLLMであるDeepSeekがHPCベンチマークコードの生成にどの程度優れているかを評価する。
- 参考スコア(独自算出の注目度): 0.1906498126334485
- License:
- Abstract: Large Language Models (LLMs), such as GPT-4 and DeepSeek, have been applied to a wide range of domains in software engineering. However, their potential in the context of High-Performance Computing (HPC) much remains to be explored. This paper evaluates how well DeepSeek, a recent LLM, performs in generating a set of HPC benchmark codes: a conjugate gradient solver, the parallel heat equation, parallel matrix multiplication, DGEMM, and the STREAM triad operation. We analyze DeepSeek's code generation capabilities for traditional HPC languages like Cpp, Fortran, Julia and Python. The evaluation includes testing for code correctness, performance, and scaling across different configurations and matrix sizes. We also provide a detailed comparison between DeepSeek and another widely used tool: GPT-4. Our results demonstrate that while DeepSeek generates functional code for HPC tasks, it lags behind GPT-4, in terms of scalability and execution efficiency of the generated code.
- Abstract(参考訳): GPT-4やDeepSeekのような大規模言語モデル(LLM)は、ソフトウェア工学の幅広い分野に適用されている。
しかし、HPC(High-Performance Computing)の文脈におけるその可能性については検討が続けられている。
本稿では,近年のLLMであるDeepSeekが,共役勾配解法,並列熱方程式,並列行列乗算,DGEMM,STREAM三元演算といった一連のHPCベンチマークコードを生成する上で,いかに優れているかを評価する。
我々は、Cpp、Fortran、Julia、Pythonといった従来のHPC言語に対するDeepSeekのコード生成機能を分析する。
評価には、コードの正確性、パフォーマンス、さまざまな構成とマトリックスサイズにわたるスケーリングのテストが含まれる。
また、DeepSeekと他の広く使われているツールであるGPT-4の詳細な比較も提供する。
以上の結果から,DeepSeekはHPCタスクの関数コードを生成するが,生成したコードのスケーラビリティと実行効率はGPT-4に遅れていることがわかった。
関連論文リスト
- PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - LLM-Vectorizer: LLM-based Verified Loop Vectorizer [12.048697450464935]
大規模言語モデル(LLM)は、個々の配列要素を処理するスカラープログラムからベクトル化されたコードを生成することができる。
LLMは1.1xから9.4xまでのランタイムスピードアップで高性能なベクトルコードを生成することができる。
我々のアプローチでは、TSVCベンチマークデータセットで正しいベクター化の38.2%を検証できる。
論文 参考訳(メタデータ) (2024-06-07T07:04:26Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Comparing Llama-2 and GPT-3 LLMs for HPC kernels generation [3.070523453466106]
我々は、オープンソースのLlama-2モデルを用いて、高性能な計算カーネルを生成することを評価する。
我々のゴールは、Llama-2と元のGPT-3ベースラインの精度を、同様の測定値を用いて比較することである。
論文 参考訳(メタデータ) (2023-09-12T01:19:54Z) - Creating a Dataset for High-Performance Computing Code Translation using
LLMs: A Bridge Between OpenMP Fortran and C++ [7.872005563259838]
定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,本データセットの有効性を評価する。
事前のコーディング知識を持たないモデルでは、CodeBLEUスコアで$mathbftimes5.1$が上昇した。
コーディングに親しみのあるモデルでは、$mathbftimes9.9$-foldが顕著に増加した。
論文 参考訳(メタデータ) (2023-07-15T02:35:51Z) - LM4HPC: Towards Effective Language Model Application in High-Performance
Computing [0.46180371154032884]
我々は、LMを用いたHPCソフトウェア解析および最適化の研究・開発を容易にするために、LM4 HPCフレームワークを設計する。
私たちのフレームワークは、Hugging Face互換APIを使用して、機械学習ソフトウェアスタックのさまざまなレベルのコンポーネントの上に構築されています。
その結果、LM4 HPCは、ユーザーが最先端のモデル群を迅速に評価し、洞察に富んだリーダーボードを生成するのに役立つことがわかった。
論文 参考訳(メタデータ) (2023-06-26T18:05:03Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - HDCC: A Hyperdimensional Computing compiler for classification on
embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。
nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。
これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文 参考訳(メタデータ) (2023-04-24T19:16:03Z) - On the Comparison of Classic and Deep Keypoint Detector and Descriptor
Methods [0.0]
本研究の目的は,いくつかの手工芸品と深部キーポイント検出器とディスクリプタ法の性能比較を行うことである。
SIFT, SURF, ORB, FAST, BRISK, MSER, HARRIS, KAZE, KAZE, AGAST, GFTT, FREAK, BRIEF, RootSIFT。
本稿では, LF-Net と SuperPoint という, 近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近
論文 参考訳(メタデータ) (2020-07-20T11:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。