論文の概要: Safurai 001: New Qualitative Approach for Code LLM Evaluation
- arxiv url: http://arxiv.org/abs/2309.11385v1
- Date: Wed, 20 Sep 2023 15:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 15:39:49.441613
- Title: Safurai 001: New Qualitative Approach for Code LLM Evaluation
- Title(参考訳): safurai 001: コードllm評価のための新しい質的アプローチ
- Authors: Davide Cifarelli, Leonardo Boiardi, Alessandro Puppo
- Abstract要約: Safurai-001は新しいLarge Language Model (LLM) で、コーディング支援の分野で大きな可能性を秘めている。
コード可読性パラメータでは, Safurai-001が1.58%, WizardCoderが18.78%, GPT-3.5が1.58%, WizardCoderが18.78%を上回った。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper presents Safurai-001, a new Large Language Model (LLM) with
significant potential in the domain of coding assistance. Driven by recent
advancements in coding LLMs, Safurai-001 competes in performance with the
latest models like WizardCoder [Xu et al., 2023], PanguCoder [Shen et al.,
2023] and Phi-1 [Gunasekar et al., 2023] but aims to deliver a more
conversational interaction. By capitalizing on the progress in data engineering
(including latest techniques of data transformation and prompt engineering) and
instruction tuning, this new model promises to stand toe-to-toe with recent
closed and open source developments. Recognizing the need for an efficacious
evaluation metric for coding LLMs, this paper also introduces GPT4-based
MultiParameters, an evaluation benchmark that harnesses varied parameters to
present a comprehensive insight into the models functioning and performance.
Our assessment shows that Safurai-001 can outperform GPT-3.5 by 1.58% and
WizardCoder by 18.78% in the Code Readability parameter and more.
- Abstract(参考訳): 本稿では,コーディング支援分野において有意な可能性を持つ新しいLarge Language Model(LLM)であるSafurai-001を提案する。
コーディングllmの最近の進歩により、safurai-001はwizardcoder [xu et al., 2023]、pangucoder [shen et al., 2023]、phi-1 [gunasekar et al., 2023]のような最新のモデルと性能が競合するが、より会話的なインタラクションを提供することを目指している。
データエンジニアリングの進歩(データトランスフォーメーションとプロンプトエンジニアリングの最新の技術を含む)と命令チューニングを活用することで、この新しいモデルは、最近のクローズドおよびオープンソース開発と対決することを約束する。
また,llmの符号化に有効な評価基準の必要性を認識し,様々なパラメータを用いた評価ベンチマークであるgpt4ベースのマルチパラメータを導入することで,モデルの機能と性能に関する総合的な洞察を提供する。
評価の結果, Safurai-001 は GPT-3.5 を1.58%, WizardCoder を18.78% 上回っていることがわかった。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - Enhancing Item Tokenization for Generative Recommendation through Self-Improvement [67.94240423434944]
生成レコメンデーションシステムは大規模言語モデル(LLM)によって駆動される
現在のアイテムトークン化手法には、テキスト記述、数値文字列、離散トークンのシーケンスの使用が含まれる。
自己改善アイテムトークン化手法を提案し,LLMがトレーニングプロセス中に独自のアイテムトークン化を洗練できるようにする。
論文 参考訳(メタデータ) (2024-12-22T21:56:15Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models [48.9044202022435]
大きな言語モデル(LLM)は印象的な能力を示すだけでなく、バイアスのあるコンテンツ生成やプライバシの問題といったリスクも提示する。
現在のアライメント手法の1つは原則駆動の統合であるが、手作業によるルールの不正確さに起因する課題に直面している。
これらの課題に対処するための2段階のアプローチである Guide-Align を紹介します。
論文 参考訳(メタデータ) (2024-03-18T14:48:29Z) - HumanEval on Latest GPT Models -- 2024 [2.3279007422505322]
このデータセットは、自然言語とプログラミング言語のデータに対してCODEGENと呼ばれる言語モデルで使用されるように初期開発された。
これらのトレーニングされたモデルの実用性は、HumanEvalタスク上のゼロショットPythonコード生成において、競争力のあるパフォーマンスを示すことで示される。
論文 参考訳(メタデータ) (2024-02-20T04:17:21Z) - Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large
Language Models [37.8941430624661]
本研究では,バイナリコード理解のための大規模言語モデル (LLM) の可能性について検討する。
BinSumは557K以上のバイナリ関数の包括的なベンチマークとデータセットである。
また,従来の完全マッチング手法を超越した意味的類似度尺度を提案する。
論文 参考訳(メタデータ) (2023-12-15T08:32:28Z) - Safurai-Csharp: Harnessing Synthetic Data to improve language-specific
Code LLM [44.99833362998488]
Safurai-CsharpはC#コードの生成、完了、デバッグに特化したオープンソースモデルである。
これは、新しいCodeLlama 34Bモデルに基づいて構築され、EvolInstructの技術を活用し、その微調整プロセスのために洗練され拡張されたデータセットを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:31:48Z) - The Program Testing Ability of Large Language Models for Code [27.590499335039972]
CodeXやCodeT5+のようなコードのための大きな言語モデル(LLM)は、コードインテリジェンスを達成する上で大きな可能性を実証しています。
本稿では、これらのモデルの興味深い特性のシリーズを示し、LLMのプログラムテスト能力をいかに改善できるかを示す。
論文 参考訳(メタデータ) (2023-10-09T13:55:45Z) - GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。
私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文 参考訳(メタデータ) (2023-09-28T16:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。