論文の概要: Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation
- arxiv url: http://arxiv.org/abs/2404.11160v1
- Date: Wed, 17 Apr 2024 08:16:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:45:15.593716
- Title: Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation
- Title(参考訳): 低コスト言語モデル:Pythonコード生成に関する調査とパフォーマンス評価
- Authors: Jessica López Espejel, Mahaman Sanoussi Yahaya Alassan, Merieme Bouhandi, Walid Dahhane, El Hassane Ettifouri,
- Abstract要約: 大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクのゴーツーソリューションとなっている。
我々はPythonコードを生成する際の長所と短所を半マニュアルで評価する。
評価目的の難易度が異なる60のプログラミング問題のデータセットを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have become the go-to solution for many Natural Language Processing (NLP) tasks due to their ability to tackle various problems and produce high-quality results. Specifically, they are increasingly used to automatically generate code, easing the burden on developers by handling repetitive tasks. However, this improvement in quality has led to high computational and memory demands, making LLMs inaccessible to users with limited resources. In this paper, we focus on Central Processing Unit (CPU)-compatible models and conduct a thorough semi-manual evaluation of their strengths and weaknesses in generating Python code. We enhance their performance by introducing a Chain-of-Thought prompt that guides the model in problem-solving. Additionally, we propose a dataset of 60 programming problems with varying difficulty levels for evaluation purposes. Our assessment also includes testing these models on two state-of-the-art datasets: HumanEval and EvalPlus. We commit to sharing our dataset and experimental results publicly to ensure transparency.
- Abstract(参考訳): 言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて、様々な問題に対処し、高品質な結果をもたらす能力により、ゴーツーソリューションとなっている。
具体的には、コードの自動生成に使用され、反復的なタスクを処理することで、開発者の負担を軽減する。
しかし、この品質改善は高い計算とメモリ要求をもたらし、限られたリソースを持つユーザにとってLLMはアクセスできない。
本稿では,中央処理ユニット(CPU)互換モデルに焦点をあて,Python コード生成における強みと弱みの徹底的な半マニュアル評価を行う。
問題解決におけるモデルの指針となるChain-of-Thoughtプロンプトを導入することで,その性能を向上させる。
さらに,評価目的の難易度が異なる60のプログラミング問題のデータセットを提案する。
私たちの評価では、これらのモデルをHumanEvalとEvalPlusの2つの最先端データセットでテストすることも含まれています。
透明性を確保するために、データセットと実験結果の公開を約束します。
関連論文リスト
- Quality Assessment of Prompts Used in Code Generation [0.5137309756089941]
我々は、異なるコード生成モデルの性能を比較するために使用されるベンチマークの中で、プロンプトの品質について、第一種研究を行う。
9つのコード生成ベンチマークから3,566のプロンプトを分析し、その中の品質問題を特定した。
論文 参考訳(メタデータ) (2024-04-15T22:02:58Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLM [2.158720689428202]
我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。
我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。
様々な難易度にまたがる38のプログラミング概念のバランスのとれた表現を手作りで185のプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:36:43Z) - Revisit Input Perturbation Problems for LLMs: A Unified Robustness
Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。
具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。
本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文 参考訳(メタデータ) (2023-10-10T10:22:05Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - PLM-ICD: Automatic ICD Coding with Pretrained Language Models [35.161696760157824]
本稿では,事前学習言語モデルを用いた自動ICD符号化のためのフレームワークを開発する。
主な課題は、1)大きなラベル空間、2)長い入力シーケンス、3)事前学習と微調整のドメインミスマッチである。
提案するフレームワークは,MIMICのベンチマークデータにおける複数の指標を用いて,その課題を克服し,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-07-12T03:56:28Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。