論文の概要: PPM: Automated Generation of Diverse Programming Problems for
Benchmarking Code Generation Models
- arxiv url: http://arxiv.org/abs/2401.15545v1
- Date: Sun, 28 Jan 2024 02:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 17:36:05.503760
- Title: PPM: Automated Generation of Diverse Programming Problems for
Benchmarking Code Generation Models
- Title(参考訳): PPM:コード生成モデルのベンチマークのための分散プログラミング問題の自動生成
- Authors: Simin Chen, Xiaoning Feng, Xiaohong Han, Cong Liu, Wei Yang
- Abstract要約: 本稿では,PPM(Programling problem merging)の概念を提案し,この概念の2つの実装を提供し,このツールを広く利用されている2つのデータセット上で活用する。
その結果、より困難で多様な、そして自然なプログラミング問題を生み出す上で、我々のツールの有効性が示された。
- 参考スコア(独自算出の注目度): 10.491051578439722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent times, a plethora of Large Code Generation Models (LCGMs) have been
proposed, showcasing significant potential in assisting developers with complex
programming tasks. Benchmarking LCGMs necessitates the creation of a set of
diverse programming problems, and each problem comprises the prompt (including
the task description), canonical solution, and test inputs. The existing
methods for constructing such a problem set can be categorized into two main
types: manual methods and perturbation-based methods. However, manual methods
demand high effort and lack scalability, while also risking data integrity due
to LCGMs' potentially contaminated data collection, and perturbation-based
approaches mainly generate semantically homogeneous problems with the same
canonical solutions and introduce typos that can be easily auto-corrected by
IDE, making them ineffective and unrealistic. In this work, we propose the idea
of programming problem merging (PPM) and provide two implementation of this
idea, we utilize our tool on two widely-used datasets and compare it against
nine baseline methods using eight code generation models. The results
demonstrate the effectiveness of our tool in generating more challenging,
diverse, and natural programming problems, comparing to the baselines.
- Abstract(参考訳): 近年、LCGM(Large Code Generation Models)が提案され、複雑なプログラミングタスクを開発者が支援する大きな可能性を示している。
LCGMのベンチマークは、様々なプログラミング問題の作成を必要とし、各問題にはプロンプト(タスク記述を含む)、標準解、テスト入力が含まれる。
このような問題集合を構築する既存の方法は、手動メソッドと摂動ベースのメソッドの2つの主なタイプに分類できる。
しかし、手動の手法では、LCGMの潜在的に汚染されたデータ収集によるデータの整合性や、摂動に基づくアプローチは、主に同じ標準解で意味的に均質な問題を生成し、IDEによって容易に自動修正できる型を導入し、非効率で非現実的になる。
本研究では,プログラミング問題マージ(PPM)の概念を提案し,この概念の2つの実装を提供し,このツールを広く使われている2つのデータセット上で利用し、8つのコード生成モデルを用いた9つのベースライン手法と比較する。
その結果,より難易度が高く,多様で,自然なプログラミング問題を発生させるツールの有効性を,ベースラインと比較した。
関連論文リスト
- An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation [1.335664823620186]
大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに多くの応用を進歩させた。
CoT-SelfEvolveは、自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
論文 参考訳(メタデータ) (2024-08-28T09:19:09Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Estimating Difficulty Levels of Programming Problems with Pre-trained Model [18.92661958433282]
プログラミング問題の難易度は、生徒の適応学習を導く上で不可欠な基準となっている。
テキスト記述とコードの解の例から,各プログラム問題の難易度自動推定の問題を定式化する。
この問題に対処するため,テキストモダリティとコードモダリティの2つの事前学習モデルを統一モデルに分割することを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:38:20Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Mixture-of-Instructions: Comprehensive Alignment of a Large Language Model through the Mixture of Diverse System Prompting Instructions [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。
MoIは、言語モデルのアライメント効率を高めるために、多様なシステムプロンプトと組み合わせた命令結合戦略を採用している。
提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文 参考訳(メタデータ) (2024-04-29T03:58:12Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - Fully Autonomous Programming with Large Language Models [0.9558392439655015]
LLM(Large Language Models)を用いたプログラム合成への最近のアプローチは、"ニアミスシンドローム"を示す。
我々は、LLMとプログラム合成ベンチマーク2としてOpenAI Codexを使用し、問題記述と評価のためのテストのデータベースとして使用します。
結果として生じるフレームワークは、修復フェーズなしでのCodexの従来の使用法と、従来の遺伝的プログラミングアプローチの両方を上回ります。
論文 参考訳(メタデータ) (2023-04-20T16:12:05Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。