論文の概要: Safurai-Csharp: Harnessing Synthetic Data to improve language-specific
Code LLM
- arxiv url: http://arxiv.org/abs/2311.03243v1
- Date: Mon, 6 Nov 2023 16:31:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 13:34:12.801833
- Title: Safurai-Csharp: Harnessing Synthetic Data to improve language-specific
Code LLM
- Title(参考訳): Safurai-Csharp: 言語固有のコードLLMを改善するための合成データのハーネス化
- Authors: Davide Cifarelli, Leonardo Boiardi, Alessandro Puppo, Leon Jovanovic
- Abstract要約: Safurai-CsharpはC#コードの生成、完了、デバッグに特化したオープンソースモデルである。
これは、新しいCodeLlama 34Bモデルに基づいて構築され、EvolInstructの技術を活用し、その微調整プロセスのために洗練され拡張されたデータセットを作成する。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper introduces Safurai-Csharp, an open-source model designed to
specialize in the generation, completion, and debugging of C# code.
Safurai-Csharp is built upon the novel CodeLlama 34B model and leverages the
EvolInstruct technique, creating a refined and expanded dataset for its
fine-tuning process. The results of its performance, a notable score of 56.33%
on the Manual MultiPL-E benchmark (Zero-Shot, Pass@1), signal its high capacity
to streamline developers' workflows and aid code learning. It shows promise in
setting new stakes in the landscape of open-source C# LLMs and hopes to inspire
more inclusive and wide-ranging development in the field of language-specific
LLMs.
- Abstract(参考訳): 本稿では,C#コードの生成,補完,デバッグを専門とするオープンソースモデルであるSafurai-Csharpを紹介する。
Safurai-Csharpは、新しいCodeLlama 34Bモデルに基づいて構築され、EvolInstructの技術を活用して、微調整プロセスのための洗練された拡張データセットを生成する。
パフォーマンスは、Manual MultiPL-Eベンチマーク(Zero-Shot, Pass@1)で56.33%の顕著なスコアで、開発者のワークフローの合理化とコード学習を支援するための高い能力を示している。
これは、オープンソースのC# LLMのランドスケープに新たなステークホルダーを設定することを約束しており、言語固有のLLMの分野でより包括的で広範な開発を刺激したいと考えている。
関連論文リスト
- CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback [29.136378191436396]
大規模言語モデル(LLM)は、コードの自動生成において顕著な進歩を示している。
しかし、LLMベースのコード生成を実際のソフトウェアプロジェクトに組み込むことが課題となっている。
本稿では,プロジェクトレベルのコードコンテキストを反復的に洗練するProCoderという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-25T14:07:27Z) - KnowCoder: Coding Structured Knowledge into LLMs for Universal Information Extraction [59.039355258637315]
コード生成によるユニバーサル情報抽出(UIE)を行うためのLarge Language Model(LLM)であるKnowCoderを提案する。
KnowCoderは、異なるスキーマをPythonクラスに一様に変換するコードスタイルのスキーマ表現メソッドを導入した。
KnowCoderには、2フェーズの学習フレームワークがあり、コード事前トレーニングによるスキーマ理解能力と、命令チューニングによるスキーマ追従能力を向上させる。
論文 参考訳(メタデータ) (2024-03-12T14:56:34Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - NeSy is alive and well: A LLM-driven symbolic approach for better code
comment data generation and classification [0.0]
我々は,C言語におけるコードコメント分類のための合成データを生成するために,記号ベース学習技術と大言語モデル(LLM)エージェントを組み合わせたニューラルシンボリック(NeSy)ワークフローを提案する。
我々の最良のモデルであるニューラルネットワークは、データ拡張後の1.033%の増加でマクロF1スコアが91.412%に達する。
論文 参考訳(メタデータ) (2024-02-25T13:20:13Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Exploring Large Language Models for Code Explanation [3.2570216147409514]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げている。
本研究では,様々なLLMを用いて,コードスニペットの自然言語要約を生成するタスクについて検討する。
論文 参考訳(メタデータ) (2023-10-25T14:38:40Z) - PanGu-Coder2: Boosting Large Language Models for Code with Ranking
Feedback [5.459517921633247]
本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。
このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
論文 参考訳(メタデータ) (2023-07-27T15:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。