論文の概要: Piloting Copilot, Codex, and StarCoder2: Hot Temperature, Cold Prompts, or Black Magic?
- arxiv url: http://arxiv.org/abs/2210.14699v3
- Date: Mon, 23 Jun 2025 11:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.084919
- Title: Piloting Copilot, Codex, and StarCoder2: Hot Temperature, Cold Prompts, or Black Magic?
- Title(参考訳): Copilot、Codex、StarCoder2のパイロット:熱い、冷たいプロンプト、ブラックマジック?
- Authors: Jean-Baptiste Döderlein, Nguessan Hermann Kouadio, Mathieu Acher, Djamel Eddine Khelladi, Benoit Combemale,
- Abstract要約: 入力変動が言語モデルの2つの構成に与える影響について検討する。
我々は、これらの入力を修正して、3つのLCMベースのコードアシスタントと2つのベンチマークに適用する特定の演算子を設計する。
この結果から,入力パラメータの変動により性能が大幅に向上することが示唆された。
- 参考スコア(独自算出の注目度): 4.5787730000799876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models are promising solutions for tackling increasing complex problems. In software engineering, they recently gained attention in code assistants, which generate programs from a natural language task description (prompt). They have the potential to save time and effort but remain poorly understood, limiting their optimal use. In this article, we investigate the impact of input variations on two configurations of a language model, focusing on parameters such as task description, surrounding context, model creativity, and the number of generated solutions. We design specific operators to modify these inputs and apply them to three LLM-based code assistants (Copilot, Codex, StarCoder2) and two benchmarks representing algorithmic problems (HumanEval, LeetCode). Our study examines whether these variations significantly affect program quality and how these effects generalize across models. Our results show that varying input parameters can greatly improve performance, achieving up to 79.27% success in one-shot generation compared to 22.44% for Codex and 31.1% for Copilot in default settings. Actioning this potential in practice is challenging due to the complex interplay in our study - the optimal settings for temperature, prompt, and number of generated solutions vary by problem. Reproducing our study with StarCoder2 confirms these findings, indicating they are not model-specific. We also uncover surprising behaviors (e.g., fully removing the prompt can be effective), revealing model brittleness and areas for improvement.
- Abstract(参考訳): 言語モデルは、ますます複雑な問題に取り組むための有望なソリューションである。
ソフトウェア工学において、彼らは最近、自然言語タスク記述(prompt)からプログラムを生成するコードアシスタントに注目を集めた。
時間と労力を節約する可能性があるが、理解が不十分であり、最適な使用を制限している。
本稿では,入力のバリエーションが言語モデルの2つの構成に与える影響を考察し,タスク記述や周囲のコンテキスト,モデルの創造性,生成したソリューションの数といったパラメータに着目した。
我々は、これらの入力を修正して、3つのLCMベースのコードアシスタント(Copilot、Codex、StarCoder2)とアルゴリズム上の問題を表す2つのベンチマーク(HumanEval、LeetCode)に適用する特定の演算子を設計する。
本研究は,これらの変化がプログラム品質に有意な影響を及ぼすか,モデル間でどのように一般化するかを検討する。
結果から,Cpilotでは22.44%,デフォルト設定では31.1%,ワンショット生成では79.27%に向上した。
温度、プロンプト、生成したソリューションの数に対する最適な設定は、問題によって異なります。
StarCoder2による我々の研究の再現は、これらの発見を確認し、それらがモデル固有のものではないことを示している。
また、驚くべき行動(例えば、プロンプトを完全に取り除くことは効果的である)を明らかにし、モデルの脆さと改善のための領域を明らかにします。
関連論文リスト
- Hints Help Finding and Fixing Bugs Differently in Python and Text-based Program Representations [28.829745991874816]
プログラム表現は,バグの発見と修正におけるユーザの精度に大きな影響を与えることがわかった。
異なるヒントは、プログラム表現とユーザのアルゴリズム的タスクに対する理解に依存する。
これらの発見は、ユーザにパーソナライズされたサポートを提供する次世代プログラミングツールの設計に影響を及ぼす。
論文 参考訳(メタデータ) (2024-12-17T02:11:53Z) - Integrating Natural Language Prompting Tasks in Introductory Programming Courses [3.907735250728617]
本報告では、導入プログラミングコースに2つのプロンプトに焦点を当てたアクティビティを組み込むことについて検討する。
第一に、学生は自然言語のプロンプトを書き、構文上の問題解決を強調することで、計算問題を解く必要がある。
2つ目は、プロンプトとコードの関係を理解するために、提供されたフラグメントに相当するコードを生成するプロンプトを作成することである。
論文 参考訳(メタデータ) (2024-10-04T01:03:25Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Linguacodus: A Synergistic Framework for Transformative Code Generation in Machine Learning Pipelines [0.0]
本稿では,自然言語のタスク記述を高レベルなデータ生成命令によってコードに変換する動的パイプラインを提案する。
本稿では、微調整過程を詳述し、自然言語記述を関数型コードに変換する方法について光を当てる。
本稿では,MLタスクの自然な記述を人間のインタラクションを最小限に抑えたコードに変換するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:58:47Z) - Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation [23.31928097405939]
言語モデルに融合した足場プログラムを用いて自己改善を行う。
言語モデルにより、様々な自己改善戦略が提案されている。
これは、近代的な言語モデルであるGPT-4が、自分自身を改善のために呼び出すことができるコードを書くことができることを実証している。
論文 参考訳(メタデータ) (2023-10-03T17:59:32Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - Language Models Can Teach Themselves to Program Better [4.627023679353507]
近年の言語モデル (LM) は、人間の許可を受けた問題で訓練された場合、コード生成において画期的な性能を達成する。
そこで本研究では,Pythonインタプリタの正しさをフィルタするプログラミング問題と解を,LMが合成可能であることを示す。
LMの性能は、独自の合成問題と検証された解を微調整することで改善される。
論文 参考訳(メタデータ) (2022-07-29T06:43:28Z) - Automatic Generation of Programming Exercises and Code Explanations with
Large Language Models [4.947560475228859]
OpenAI Codexは、GPT-3ファミリーの最近の大規模言語モデルで、コードを自然言語に翻訳する。
プログラミング演習の2つの段階において,Codexの自然言語生成能力について検討する。
自動生成されるコンテンツの大部分は、新しいものでも、理にかなったものでも、多くの場合、そのまま使えるものなのです。
論文 参考訳(メタデータ) (2022-06-03T11:00:43Z) - Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。
そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-04-25T06:06:08Z) - A Conversational Paradigm for Program Synthesis [110.94409515865867]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。
私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。
本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文 参考訳(メタデータ) (2022-03-25T06:55:15Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。