Fugu-MT 論文翻訳(概要): PPM: Automated Generation of Diverse Programming Problems for Benchmarking Code Generation Models

論文の概要: PPM: Automated Generation of Diverse Programming Problems for Benchmarking Code Generation Models

arxiv url: http://arxiv.org/abs/2401.15545v1
Date: Sun, 28 Jan 2024 02:27:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 17:36:05.503760
Title: PPM: Automated Generation of Diverse Programming Problems for Benchmarking Code Generation Models
Title（参考訳）: PPM:コード生成モデルのベンチマークのための分散プログラミング問題の自動生成
Authors: Simin Chen, Xiaoning Feng, Xiaohong Han, Cong Liu, Wei Yang
Abstract要約: 本稿では,PPM(Programling problem merging)の概念を提案し,この概念の2つの実装を提供し,このツールを広く利用されている2つのデータセット上で活用する。その結果、より困難で多様な、そして自然なプログラミング問題を生み出す上で、我々のツールの有効性が示された。
参考スコア（独自算出の注目度）: 10.491051578439722
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent times, a plethora of Large Code Generation Models (LCGMs) have been proposed, showcasing significant potential in assisting developers with complex programming tasks. Benchmarking LCGMs necessitates the creation of a set of diverse programming problems, and each problem comprises the prompt (including the task description), canonical solution, and test inputs. The existing methods for constructing such a problem set can be categorized into two main types: manual methods and perturbation-based methods. However, manual methods demand high effort and lack scalability, while also risking data integrity due to LCGMs' potentially contaminated data collection, and perturbation-based approaches mainly generate semantically homogeneous problems with the same canonical solutions and introduce typos that can be easily auto-corrected by IDE, making them ineffective and unrealistic. In this work, we propose the idea of programming problem merging (PPM) and provide two implementation of this idea, we utilize our tool on two widely-used datasets and compare it against nine baseline methods using eight code generation models. The results demonstrate the effectiveness of our tool in generating more challenging, diverse, and natural programming problems, comparing to the baselines.
Abstract（参考訳）: 近年、LCGM(Large Code Generation Models)が提案され、複雑なプログラミングタスクを開発者が支援する大きな可能性を示している。 LCGMのベンチマークは、様々なプログラミング問題の作成を必要とし、各問題にはプロンプト(タスク記述を含む)、標準解、テスト入力が含まれる。このような問題集合を構築する既存の方法は、手動メソッドと摂動ベースのメソッドの2つの主なタイプに分類できる。しかし、手動の手法では、LCGMの潜在的に汚染されたデータ収集によるデータの整合性や、摂動に基づくアプローチは、主に同じ標準解で意味的に均質な問題を生成し、IDEによって容易に自動修正できる型を導入し、非効率で非現実的になる。本研究では,プログラミング問題マージ(PPM)の概念を提案し,この概念の2つの実装を提供し,このツールを広く使われている2つのデータセット上で利用し、8つのコード生成モデルを用いた9つのベースライン手法と比較する。その結果,より難易度が高く,多様で,自然なプログラミング問題を発生させるツールの有効性を,ベースラインと比較した。

関連論文リスト

Auto-Formulating Dynamic Programming Problems with Large Language Models [4.693833469789685]
DP-Benchは、幅広い教科書レベルのDP問題を網羅し、体系的な評価を可能にする最初のベンチマークである。 DPLMの有効性の中心はDualReflectです。DualReflectは、限られた初期例からトレーニングデータをスケールアップするために設計された、新しい合成データ生成パイプラインです。この結果から, 多様な定式化を導入するための大規模化において, 後方生成は強力な正当性を保証するために, 低データ体制で好まれることが明らかとなった。
論文参考訳（メタデータ） (2025-07-15T21:09:43Z)
Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。 DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文参考訳（メタデータ） (2025-04-09T17:54:22Z)
Aligning Multimodal LLM with Human Preference: A Survey [62.89722942008262]
大規模言語モデル(LLM)は、タスク固有のトレーニングを必要とせずに、単純なプロンプトで幅広い汎用タスクを処理できる。 MLLM(Multimodal Large Language Models)は、視覚的、聴覚的、テキスト的データを含む複雑なタスクに対処する大きな可能性を実証している。しかし、真理性、安全性、o1のような推論、および人間の嗜好との整合性に関する重要な問題は未解決のままである。
論文参考訳（メタデータ） (2025-03-18T17:59:56Z)
Multi-task Representation Learning for Mixed Integer Linear Programming [13.106799330951842]
本稿では,ML誘導MILP問題解決のためのマルチタスク学習フレームワークについて紹介する。我々は,マルチタスク学習モデルが同一分布内の特殊モデルと類似して動作することを示す。これは、問題のサイズやタスクの一般化において、それらを著しく上回る。
論文参考訳（メタデータ） (2024-12-18T23:33:32Z)
An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation [1.335664823620186]
大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに多くの応用を進歩させた。 CoT-SelfEvolveは、自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
論文参考訳（メタデータ） (2024-08-28T09:19:09Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Estimating Difficulty Levels of Programming Problems with Pre-trained Model [18.92661958433282]
プログラミング問題の難易度は、生徒の適応学習を導く上で不可欠な基準となっている。テキスト記述とコードの解の例から,各プログラム問題の難易度自動推定の問題を定式化する。この問題に対処するため,テキストモダリティとコードモダリティの2つの事前学習モデルを統一モデルに分割することを提案する。
論文参考訳（メタデータ） (2024-06-13T05:38:20Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Mixture-of-Instructions: Comprehensive Alignment of a Large Language Model through the Mixture of Diverse System Prompting Instructions [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。 MoIは、言語モデルのアライメント効率を高めるために、多様なシステムプロンプトと組み合わせた命令結合戦略を採用している。提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文参考訳（メタデータ） (2024-04-29T03:58:12Z)
A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2024-02-10T11:14:53Z)
Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文参考訳（メタデータ） (2023-10-03T00:57:26Z)
Fully Autonomous Programming with Large Language Models [0.9558392439655015]
LLM(Large Language Models)を用いたプログラム合成への最近のアプローチは、"ニアミスシンドローム"を示す。我々は、LLMとプログラム合成ベンチマーク2としてOpenAI Codexを使用し、問題記述と評価のためのテストのデータベースとして使用します。結果として生じるフレームワークは、修復フェーズなしでのCodexの従来の使用法と、従来の遺伝的プログラミングアプローチの両方を上回ります。
論文参考訳（メタデータ） (2023-04-20T16:12:05Z)
A Two-stage Framework and Reinforcement Learning-based Optimization Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文参考訳（メタデータ） (2021-03-10T03:16:12Z)
An Online Method for A Class of Distributionally Robust Optimization with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文参考訳（メタデータ） (2020-06-17T20:19:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。