Fugu-MT 論文翻訳(概要): Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation

論文の概要: Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation

arxiv url: http://arxiv.org/abs/2404.11160v1
Date: Wed, 17 Apr 2024 08:16:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 14:45:15.593716
Title: Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation
Title（参考訳）: 低コスト言語モデル:Pythonコード生成に関する調査とパフォーマンス評価
Authors: Jessica López Espejel, Mahaman Sanoussi Yahaya Alassan, Merieme Bouhandi, Walid Dahhane, El Hassane Ettifouri,
Abstract要約: 大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクのゴーツーソリューションとなっている。我々はPythonコードを生成する際の長所と短所を半マニュアルで評価する。評価目的の難易度が異なる60のプログラミング問題のデータセットを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have become the go-to solution for many Natural Language Processing (NLP) tasks due to their ability to tackle various problems and produce high-quality results. Specifically, they are increasingly used to automatically generate code, easing the burden on developers by handling repetitive tasks. However, this improvement in quality has led to high computational and memory demands, making LLMs inaccessible to users with limited resources. In this paper, we focus on Central Processing Unit (CPU)-compatible models and conduct a thorough semi-manual evaluation of their strengths and weaknesses in generating Python code. We enhance their performance by introducing a Chain-of-Thought prompt that guides the model in problem-solving. Additionally, we propose a dataset of 60 programming problems with varying difficulty levels for evaluation purposes. Our assessment also includes testing these models on two state-of-the-art datasets: HumanEval and EvalPlus. We commit to sharing our dataset and experimental results publicly to ensure transparency.
Abstract（参考訳）: 言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて、様々な問題に対処し、高品質な結果をもたらす能力により、ゴーツーソリューションとなっている。具体的には、コードの自動生成に使用され、反復的なタスクを処理することで、開発者の負担を軽減する。しかし、この品質改善は高い計算とメモリ要求をもたらし、限られたリソースを持つユーザにとってLLMはアクセスできない。本稿では,中央処理ユニット(CPU)互換モデルに焦点をあて,Python コード生成における強みと弱みの徹底的な半マニュアル評価を行う。問題解決におけるモデルの指針となるChain-of-Thoughtプロンプトを導入することで,その性能を向上させる。さらに,評価目的の難易度が異なる60のプログラミング問題のデータセットを提案する。私たちの評価では、これらのモデルをHumanEvalとEvalPlusの2つの最先端データセットでテストすることも含まれています。透明性を確保するために、データセットと実験結果の公開を約束します。

関連論文リスト

Assessing Small Language Models for Code Generation: An Empirical Study with Benchmarks [4.448709087838503]
小型言語モデル(SLM)は、大規模言語モデル(LLM)の軽量で費用対効果の高い代替手段を提供する。本研究では,5つのコード関連ベンチマークにおいて,0.4Bから10Bまでの20個のオープンソースSLMの総合的評価を行った。
論文参考訳（メタデータ） (2025-07-03T20:32:36Z)
From Reasoning to Code: GRPO Optimization for Underrepresented Languages [0.7864304771129751]
本稿では,Qwen 2.5モデルの小型コードバージョンとグループ相対ポリシー最適化を組み合わせた一般化可能なアプローチを提案する。推論によるフィードバックを直接強化学習ループに統合することにより、論理的に一貫性があり、構文的に正確なコードを生成する。
論文参考訳（メタデータ） (2025-05-20T11:28:48Z)
Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Deriving Coding-Specific Sub-Models from LLMs using Resource-Efficient Pruning [4.762390044282733]
大規模言語モデル(LLM)は、様々な複雑なコード生成タスクにおいて、その例外的な性能を実証している。このような要求を緩和するために、モデルプルーニング技術は、パラメータが著しく少ないよりコンパクトなモデルを作成するために使用される。本研究では,非構造化プルーニングによる符号化特化サブモデルの効率的な導出について検討する。
論文参考訳（メタデータ） (2025-01-09T14:00:01Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation [1.335664823620186]
大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに多くの応用を進歩させた。 CoT-SelfEvolveは、自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
論文参考訳（メタデータ） (2024-08-28T09:19:09Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs [1.9207412600219353]
我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。我々は,38のプログラミング概念をバランスよく表現した185個の手作りプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
論文参考訳（メタデータ） (2024-01-08T12:36:43Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization in Programming Language Understanding [5.9535699822923]
我々は,言語モデルの言語理解能力を評価するために,GenCodeSearchNet (GeCS) という新しいベンチマークデータセットを提案する。完全なデータセットの一部として、我々が導入した新しい手作業でキュレートされたサブセットであるStatCodeSearchは、人気があるが、これまでのところあまり表現されていないプログラミング言語である。評価と比較のために、細調整されたBERTスタイルモデルとGPTスタイルの大規模言語モデルを用いて、いくつかのベースライン結果を収集した。
論文参考訳（メタデータ） (2023-11-16T09:35:00Z)
MEGA: Multilingual Evaluation of Generative AI [23.109803506475174]
生成AIモデルは、多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。 LLMのほとんどの研究は英語に限られている。これらのモデルが、他の言語でのテキストの理解と生成にどの程度の能力があるかは定かではない。
論文参考訳（メタデータ） (2023-03-22T13:03:10Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
MOROCCO: Model Resource Comparison Framework [61.444083353087294]
我々は,50以上のNLUタスクをサポートするttjiant環境と互換性のある言語モデルを比較するフレームワークMOROCCOを提案する。異なる言語で2つのGLUEライクなスイートに適用可能であることを示す。
論文参考訳（メタデータ） (2021-04-29T13:01:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。