論文の概要: Domain-Specific Code Language Models: Unraveling the Potential for HPC
Codes and Tasks
- arxiv url: http://arxiv.org/abs/2312.13322v1
- Date: Wed, 20 Dec 2023 15:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 17:00:36.342228
- Title: Domain-Specific Code Language Models: Unraveling the Potential for HPC
Codes and Tasks
- Title(参考訳): ドメイン特化コード言語モデル:HPCコードとタスクの可能性を明らかにする
- Authors: Tal Kadosh, Niranjan Hasabnis, Vy A. Vo, Nadav Schneider, Neva Krien,
Mihai Capota, Abdul Wasay, Nesreen Ahmed, Ted Willke, Guy Tamir, Yuval
Pinter, Timothy Mattson, Gal Oren
- Abstract要約: ソフトウェア開発におけるAIのトレンドは、様々なプログラミングタスクに対処するより大きな言語モデル(LLM)を開発することである。
ハイパフォーマンスコンピューティング(HPC)領域のタスクに適用されるLLMでさえ、巨大なサイズであり、トレーニングに高価な計算リソースを必要とする。
私たちは、既存のLMよりも桁違いに小さいが、パフォーマンスは良くないものの、HPC固有のLM、MonoCoderを構築しています。
- 参考スコア(独自算出の注目度): 5.250454826260407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With easier access to powerful compute resources, there is a growing trend in
AI for software development to develop larger language models (LLMs) to address
a variety of programming tasks. Even LLMs applied to tasks from the
high-performance computing (HPC) domain are huge in size and demand expensive
compute resources for training. This is partly because these LLMs for HPC tasks
are obtained by finetuning existing LLMs that support several natural and/or
programming languages. We found this design choice confusing - why do we need
large LMs trained on natural languages and programming languages unrelated to
HPC for HPC-specific tasks?
In this line of work, we aim to question choices made by existing LLMs by
developing smaller LMs for specific domains - we call them domain-specific LMs.
Specifically, we start off with HPC as a domain and build an HPC-specific LM,
named MonoCoder, that is orders of magnitude smaller than existing LMs but
delivers similar, if not better performance, on non-HPC and HPC tasks.
Specifically, we pre-trained MonoCoder on an HPC-specific dataset (named
HPCorpus) of C and C++ programs mined from GitHub. We evaluated the performance
of MonoCoder against conventional multi-lingual LLMs. Results demonstrate that
MonoCoder, although much smaller than existing LMs, achieves similar results on
normalized-perplexity tests and much better ones in CodeBLEU competence for
high-performance and parallel code generations. Furthermore, fine-tuning the
base model for the specific task of parallel code generation (OpenMP parallel
for pragmas) demonstrates outstanding results compared to GPT, especially when
local misleading semantics are removed by our novel pre-processor Tokompiler,
showcasing the ability of domain-specific models to assist in HPC-relevant
tasks.
- Abstract(参考訳): 強力な計算リソースへのアクセスが容易になるにつれ、ソフトウェア開発におけるAIは、様々なプログラミングタスクに対処するより大きな言語モデル(LLM)を開発する傾向にある。
ハイパフォーマンスコンピューティング(HPC)領域のタスクに適用されるLLMでさえ、巨大なサイズであり、トレーニングに高価な計算リソースを必要とする。
これは、HPCタスクのためのこれらのLLMが、いくつかの自然および/またはプログラミング言語をサポートする既存のLLMを微調整することによって得られるためである。
HPC固有のタスクには、HPCとは無関係な自然言語やプログラミング言語でトレーニングされた大規模なLMが必要なのでしょうか?
この一連の作業では、特定のドメインに対してより小さなLMを開発することで、既存のLLMによる選択を問うことを目指しています。
具体的には、hpcをドメインとして始め、既存のlmsよりも桁違いに小さいが、hpcやhpc以外のタスクで同様の性能を提供する、monocoderと呼ばれるhpc固有のlmを構築します。
具体的には、GitHubから採掘されたCとC++プログラムのHPC固有のデータセット(HPCorpusという名前)でMonoCoderを事前トレーニングしました。
従来の多言語LLMに対するMonoCoderの性能評価を行った。
その結果、MonoCoderは既存のLMよりもはるかに小さいが、通常のパープレキシティテストと、高性能で並列なコード生成のためのCodeBLEUコンピテンスにおいて、同様の結果が得られることがわかった。
さらに、並列コード生成の特定のタスクのベースモデルを微調整すると、特にローカルなミスリードセマンティクスが新しいプリプロセッサであるTokompilerによって削除された場合、HPC関連タスクを補助するドメイン固有モデルの能力を示すGPTと比較して、優れた結果が得られる。
関連論文リスト
- BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - OMPGPT: A Generative Pre-trained Transformer Model for OpenMP [7.264455119495624]
本稿では,OpenMP生成のための言語モデル固有の強みを巧みに活用する新しいモデルであるOMPGPTを紹介する。
我々は、OMPGPTの有効性を高めるために設計された革新的な戦略であるチェーン・オブ・OMPを作成するために、NLPドメインからの迅速なエンジニアリング技術を採用し、適応する。
論文 参考訳(メタデータ) (2024-01-28T06:06:59Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks [76.85930757493409]
大規模言語モデル(LLM)は、コード生成ベンチマークの習熟度を示しているが、これらの結果を実用的な開発シナリオに変換することは依然として難しい。
ML-Benchは、レポジトリレベルのオープンソースライブラリを統合して機械学習タスクを完了させるLLMの機能を評価するために設計された、新しいベンチマークである。
以上の結果から, GPT-4は他のLSMよりも優れており, 課題の複雑さを浮き彫りにしたタスクは33.82%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - HPC-GPT: Integrating Large Language Model for High-Performance Computing [3.8078849170829407]
HPCドメインに対して生成されたQA(Question-Answer)インスタンスを用いて微調整を行う新しいLLaMAモデルであるHPC-GPTを提案する。
その有効性を評価するために、AIモデルとHPC用データセットの管理とデータ競合検出という2つのHPCタスクに集中する。
LLMとHPC固有のタスク間の性能ギャップを埋めるHPC-GPTの可能性について検討した。
論文 参考訳(メタデータ) (2023-10-03T01:34:55Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - Scope is all you need: Transforming LLMs for HPC Code [5.0227775038998415]
本稿では,HPCにおける前処理やコンパイル中心のタスクに特化して設計された,Tokompilerという新しいトークン機構を提案する。
Tokompilerは言語プリミティブの知識を活用して、言語指向のトークンを生成し、コード構造をコンテキスト対応で理解する。
その結果、Tokompilerは従来のトークン化ツールに比べてコード補完精度と意味理解を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-18T10:12:03Z) - Modeling Parallel Programs using Large Language Models [2.906142380269856]
大規模言語モデル(LLM)が,高性能および科学的コードに特有のタスクにどのように適用できるかを示す。
並列コードで訓練された新しいモデルHPC-Coderを導入する。
論文 参考訳(メタデータ) (2023-06-29T19:44:55Z) - LM4HPC: Towards Effective Language Model Application in High-Performance
Computing [0.46180371154032884]
我々は、LMを用いたHPCソフトウェア解析および最適化の研究・開発を容易にするために、LM4 HPCフレームワークを設計する。
私たちのフレームワークは、Hugging Face互換APIを使用して、機械学習ソフトウェアスタックのさまざまなレベルのコンポーネントの上に構築されています。
その結果、LM4 HPCは、ユーザーが最先端のモデル群を迅速に評価し、洞察に富んだリーダーボードを生成するのに役立つことがわかった。
論文 参考訳(メタデータ) (2023-06-26T18:05:03Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。