Fugu-MT 論文翻訳(概要): Safurai 001: New Qualitative Approach for Code LLM Evaluation

論文の概要: Safurai 001: New Qualitative Approach for Code LLM Evaluation

arxiv url: http://arxiv.org/abs/2309.11385v1
Date: Wed, 20 Sep 2023 15:11:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-21 15:39:49.441613
Title: Safurai 001: New Qualitative Approach for Code LLM Evaluation
Title（参考訳）: safurai 001: コードllm評価のための新しい質的アプローチ
Authors: Davide Cifarelli, Leonardo Boiardi, Alessandro Puppo
Abstract要約: Safurai-001は新しいLarge Language Model (LLM) で、コーディング支援の分野で大きな可能性を秘めている。コード可読性パラメータでは, Safurai-001が1.58%, WizardCoderが18.78%, GPT-3.5が1.58%, WizardCoderが18.78%を上回った。
参考スコア（独自算出の注目度）: 49.1574468325115
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: This paper presents Safurai-001, a new Large Language Model (LLM) with significant potential in the domain of coding assistance. Driven by recent advancements in coding LLMs, Safurai-001 competes in performance with the latest models like WizardCoder [Xu et al., 2023], PanguCoder [Shen et al., 2023] and Phi-1 [Gunasekar et al., 2023] but aims to deliver a more conversational interaction. By capitalizing on the progress in data engineering (including latest techniques of data transformation and prompt engineering) and instruction tuning, this new model promises to stand toe-to-toe with recent closed and open source developments. Recognizing the need for an efficacious evaluation metric for coding LLMs, this paper also introduces GPT4-based MultiParameters, an evaluation benchmark that harnesses varied parameters to present a comprehensive insight into the models functioning and performance. Our assessment shows that Safurai-001 can outperform GPT-3.5 by 1.58% and WizardCoder by 18.78% in the Code Readability parameter and more.
Abstract（参考訳）: 本稿では,コーディング支援分野において有意な可能性を持つ新しいLarge Language Model(LLM)であるSafurai-001を提案する。コーディングllmの最近の進歩により、safurai-001はwizardcoder [xu et al., 2023]、pangucoder [shen et al., 2023]、phi-1 [gunasekar et al., 2023]のような最新のモデルと性能が競合するが、より会話的なインタラクションを提供することを目指している。データエンジニアリングの進歩(データトランスフォーメーションとプロンプトエンジニアリングの最新の技術を含む)と命令チューニングを活用することで、この新しいモデルは、最近のクローズドおよびオープンソース開発と対決することを約束する。また,llmの符号化に有効な評価基準の必要性を認識し,様々なパラメータを用いた評価ベンチマークであるgpt4ベースのマルチパラメータを導入することで,モデルの機能と性能に関する総合的な洞察を提供する。評価の結果, Safurai-001 は GPT-3.5 を1.58%, WizardCoder を18.78% 上回っていることがわかった。

関連論文リスト

LLMCup: Ranking-Enhanced Comment Updating with LLMs [8.12420131928042]
大きな言語モデル(LLM)は、コメント生成、コード合成、プログラムの修復といったソフトウェア工学のタスクにおいて素晴らしいパフォーマンスを示している。 LLMCupという新しいコメント更新フレームワークを提案する。このフレームワークはまず複数のプロンプト戦略を用いて,LSMを介して多種多様な候補更新コメントを提供する。
論文参考訳（メタデータ） (2025-07-11T15:11:27Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
Enhancing Item Tokenization for Generative Recommendation through Self-Improvement [67.94240423434944]
生成レコメンデーションシステムは大規模言語モデル(LLM)によって駆動される現在のアイテムトークン化手法には、テキスト記述、数値文字列、離散トークンのシーケンスの使用が含まれる。自己改善アイテムトークン化手法を提案し,LLMがトレーニングプロセス中に独自のアイテムトークン化を洗練できるようにする。
論文参考訳（メタデータ） (2024-12-22T21:56:15Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Do Neutral Prompts Produce Insecure Code? FormAI-v2 Dataset: Labelling Vulnerabilities in Code Generated by Large Language Models [3.4887856546295333]
この研究は、最先端の大規模言語モデル(LLM)の比較分析を提供する。中立なゼロショットプロンプトを使って単純なCプログラムを書く際に、脆弱性が発生する可能性を分析する。
論文参考訳（メタデータ） (2024-04-29T01:24:14Z)
Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models [48.9044202022435]
大きな言語モデル(LLM)は印象的な能力を示すだけでなく、バイアスのあるコンテンツ生成やプライバシの問題といったリスクも提示する。現在のアライメント手法の1つは原則駆動の統合であるが、手作業によるルールの不正確さに起因する課題に直面している。これらの課題に対処するための2段階のアプローチである Guide-Align を紹介します。
論文参考訳（メタデータ） (2024-03-18T14:48:29Z)
HumanEval on Latest GPT Models -- 2024 [2.3279007422505322]
このデータセットは、自然言語とプログラミング言語のデータに対してCODEGENと呼ばれる言語モデルで使用されるように初期開発された。これらのトレーニングされたモデルの実用性は、HumanEvalタスク上のゼロショットPythonコード生成において、競争力のあるパフォーマンスを示すことで示される。
論文参考訳（メタデータ） (2024-02-20T04:17:21Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large Language Models [37.8941430624661]
本研究では,バイナリコード理解のための大規模言語モデル (LLM) の可能性について検討する。 BinSumは557K以上のバイナリ関数の包括的なベンチマークとデータセットである。また,従来の完全マッチング手法を超越した意味的類似度尺度を提案する。
論文参考訳（メタデータ） (2023-12-15T08:32:28Z)
Safurai-Csharp: Harnessing Synthetic Data to improve language-specific Code LLM [44.99833362998488]
Safurai-CsharpはC#コードの生成、完了、デバッグに特化したオープンソースモデルである。これは、新しいCodeLlama 34Bモデルに基づいて構築され、EvolInstructの技術を活用し、その微調整プロセスのために洗練され拡張されたデータセットを作成する。
論文参考訳（メタデータ） (2023-11-06T16:31:48Z)
The Program Testing Ability of Large Language Models for Code [27.590499335039972]
CodeXやCodeT5+のようなコードのための大きな言語モデル(LLM)は、コードインテリジェンスを達成する上で大きな可能性を実証しています。本稿では、これらのモデルの興味深い特性のシリーズを示し、LLMのプログラムテスト能力をいかに改善できるかを示す。
論文参考訳（メタデータ） (2023-10-09T13:55:45Z)
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文参考訳（メタデータ） (2023-09-28T16:43:35Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文参考訳（メタデータ） (2022-04-28T08:49:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。