論文の概要: Safurai 001: New Qualitative Approach for Code LLM Evaluation
- arxiv url: http://arxiv.org/abs/2309.11385v1
- Date: Wed, 20 Sep 2023 15:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 15:39:49.441613
- Title: Safurai 001: New Qualitative Approach for Code LLM Evaluation
- Title(参考訳): safurai 001: コードllm評価のための新しい質的アプローチ
- Authors: Davide Cifarelli, Leonardo Boiardi, Alessandro Puppo
- Abstract要約: Safurai-001は新しいLarge Language Model (LLM) で、コーディング支援の分野で大きな可能性を秘めている。
コード可読性パラメータでは, Safurai-001が1.58%, WizardCoderが18.78%, GPT-3.5が1.58%, WizardCoderが18.78%を上回った。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper presents Safurai-001, a new Large Language Model (LLM) with
significant potential in the domain of coding assistance. Driven by recent
advancements in coding LLMs, Safurai-001 competes in performance with the
latest models like WizardCoder [Xu et al., 2023], PanguCoder [Shen et al.,
2023] and Phi-1 [Gunasekar et al., 2023] but aims to deliver a more
conversational interaction. By capitalizing on the progress in data engineering
(including latest techniques of data transformation and prompt engineering) and
instruction tuning, this new model promises to stand toe-to-toe with recent
closed and open source developments. Recognizing the need for an efficacious
evaluation metric for coding LLMs, this paper also introduces GPT4-based
MultiParameters, an evaluation benchmark that harnesses varied parameters to
present a comprehensive insight into the models functioning and performance.
Our assessment shows that Safurai-001 can outperform GPT-3.5 by 1.58% and
WizardCoder by 18.78% in the Code Readability parameter and more.
- Abstract(参考訳): 本稿では,コーディング支援分野において有意な可能性を持つ新しいLarge Language Model(LLM)であるSafurai-001を提案する。
コーディングllmの最近の進歩により、safurai-001はwizardcoder [xu et al., 2023]、pangucoder [shen et al., 2023]、phi-1 [gunasekar et al., 2023]のような最新のモデルと性能が競合するが、より会話的なインタラクションを提供することを目指している。
データエンジニアリングの進歩(データトランスフォーメーションとプロンプトエンジニアリングの最新の技術を含む)と命令チューニングを活用することで、この新しいモデルは、最近のクローズドおよびオープンソース開発と対決することを約束する。
また,llmの符号化に有効な評価基準の必要性を認識し,様々なパラメータを用いた評価ベンチマークであるgpt4ベースのマルチパラメータを導入することで,モデルの機能と性能に関する総合的な洞察を提供する。
評価の結果, Safurai-001 は GPT-3.5 を1.58%, WizardCoder を18.78% 上回っていることがわかった。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Do Neutral Prompts Produce Insecure Code? FormAI-v2 Dataset: Labelling Vulnerabilities in Code Generated by Large Language Models [3.4887856546295333]
この研究は、最先端の大規模言語モデル(LLM)の比較分析を提供する。
中立なゼロショットプロンプトを使って単純なCプログラムを書く際に、脆弱性が発生する可能性を分析する。
論文 参考訳(メタデータ) (2024-04-29T01:24:14Z) - Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models [48.9044202022435]
大きな言語モデル(LLM)は印象的な能力を示すだけでなく、バイアスのあるコンテンツ生成やプライバシの問題といったリスクも提示する。
現在のアライメント手法の1つは原則駆動の統合であるが、手作業によるルールの不正確さに起因する課題に直面している。
これらの課題に対処するための2段階のアプローチである Guide-Align を紹介します。
論文 参考訳(メタデータ) (2024-03-18T14:48:29Z) - HumanEval on Latest GPT Models -- 2024 [2.3279007422505322]
このデータセットは、自然言語とプログラミング言語のデータに対してCODEGENと呼ばれる言語モデルで使用されるように初期開発された。
これらのトレーニングされたモデルの実用性は、HumanEvalタスク上のゼロショットPythonコード生成において、競争力のあるパフォーマンスを示すことで示される。
論文 参考訳(メタデータ) (2024-02-20T04:17:21Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large
Language Models [37.8941430624661]
本研究では,バイナリコード理解のための大規模言語モデル (LLM) の可能性について検討する。
BinSumは557K以上のバイナリ関数の包括的なベンチマークとデータセットである。
また,従来の完全マッチング手法を超越した意味的類似度尺度を提案する。
論文 参考訳(メタデータ) (2023-12-15T08:32:28Z) - Safurai-Csharp: Harnessing Synthetic Data to improve language-specific
Code LLM [44.99833362998488]
Safurai-CsharpはC#コードの生成、完了、デバッグに特化したオープンソースモデルである。
これは、新しいCodeLlama 34Bモデルに基づいて構築され、EvolInstructの技術を活用し、その微調整プロセスのために洗練され拡張されたデータセットを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:31:48Z) - The Program Testing Ability of Large Language Models for Code [27.590499335039972]
CodeXやCodeT5+のようなコードのための大きな言語モデル(LLM)は、コードインテリジェンスを達成する上で大きな可能性を実証しています。
本稿では、これらのモデルの興味深い特性のシリーズを示し、LLMのプログラムテスト能力をいかに改善できるかを示す。
論文 参考訳(メタデータ) (2023-10-09T13:55:45Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。