Fugu-MT 論文翻訳(概要): Piloting Copilot, Codex, and StarCoder2: Hot Temperature, Cold Prompts, or Black Magic?

論文の概要: Piloting Copilot, Codex, and StarCoder2: Hot Temperature, Cold Prompts, or Black Magic?

arxiv url: http://arxiv.org/abs/2210.14699v3
Date: Mon, 23 Jun 2025 11:31:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.084919
Title: Piloting Copilot, Codex, and StarCoder2: Hot Temperature, Cold Prompts, or Black Magic?
Title（参考訳）: Copilot、Codex、StarCoder2のパイロット:熱い、冷たいプロンプト、ブラックマジック?
Authors: Jean-Baptiste Döderlein, Nguessan Hermann Kouadio, Mathieu Acher, Djamel Eddine Khelladi, Benoit Combemale,
Abstract要約: 入力変動が言語モデルの2つの構成に与える影響について検討する。我々は、これらの入力を修正して、3つのLCMベースのコードアシスタントと2つのベンチマークに適用する特定の演算子を設計する。この結果から,入力パラメータの変動により性能が大幅に向上することが示唆された。
参考スコア（独自算出の注目度）: 4.5787730000799876
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models are promising solutions for tackling increasing complex problems. In software engineering, they recently gained attention in code assistants, which generate programs from a natural language task description (prompt). They have the potential to save time and effort but remain poorly understood, limiting their optimal use. In this article, we investigate the impact of input variations on two configurations of a language model, focusing on parameters such as task description, surrounding context, model creativity, and the number of generated solutions. We design specific operators to modify these inputs and apply them to three LLM-based code assistants (Copilot, Codex, StarCoder2) and two benchmarks representing algorithmic problems (HumanEval, LeetCode). Our study examines whether these variations significantly affect program quality and how these effects generalize across models. Our results show that varying input parameters can greatly improve performance, achieving up to 79.27% success in one-shot generation compared to 22.44% for Codex and 31.1% for Copilot in default settings. Actioning this potential in practice is challenging due to the complex interplay in our study - the optimal settings for temperature, prompt, and number of generated solutions vary by problem. Reproducing our study with StarCoder2 confirms these findings, indicating they are not model-specific. We also uncover surprising behaviors (e.g., fully removing the prompt can be effective), revealing model brittleness and areas for improvement.
Abstract（参考訳）: 言語モデルは、ますます複雑な問題に取り組むための有望なソリューションである。ソフトウェア工学において、彼らは最近、自然言語タスク記述(prompt)からプログラムを生成するコードアシスタントに注目を集めた。時間と労力を節約する可能性があるが、理解が不十分であり、最適な使用を制限している。本稿では,入力のバリエーションが言語モデルの2つの構成に与える影響を考察し,タスク記述や周囲のコンテキスト,モデルの創造性,生成したソリューションの数といったパラメータに着目した。我々は、これらの入力を修正して、3つのLCMベースのコードアシスタント(Copilot、Codex、StarCoder2)とアルゴリズム上の問題を表す2つのベンチマーク(HumanEval、LeetCode)に適用する特定の演算子を設計する。本研究は,これらの変化がプログラム品質に有意な影響を及ぼすか,モデル間でどのように一般化するかを検討する。結果から,Cpilotでは22.44%,デフォルト設定では31.1%,ワンショット生成では79.27%に向上した。温度、プロンプト、生成したソリューションの数に対する最適な設定は、問題によって異なります。 StarCoder2による我々の研究の再現は、これらの発見を確認し、それらがモデル固有のものではないことを示している。また、驚くべき行動(例えば、プロンプトを完全に取り除くことは効果的である)を明らかにし、モデルの脆さと改善のための領域を明らかにします。

関連論文リスト

A Showdown of ChatGPT vs DeepSeek in Solving Programming Tasks [2.66269503676104]
本研究では,ChatGPT 03-miniとDeepSeek-R1の2つの主要なモデルを評価する。以上の結果から,どちらのモデルも容易なタスクでも同様に動作するが,ChatGPTは中程度のタスクでDeepSeek-R1より優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-16T14:35:36Z)
Hints Help Finding and Fixing Bugs Differently in Python and Text-based Program Representations [28.829745991874816]
プログラム表現は,バグの発見と修正におけるユーザの精度に大きな影響を与えることがわかった。異なるヒントは、プログラム表現とユーザのアルゴリズム的タスクに対する理解に依存する。これらの発見は、ユーザにパーソナライズされたサポートを提供する次世代プログラミングツールの設計に影響を及ぼす。
論文参考訳（メタデータ） (2024-12-17T02:11:53Z)
Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文参考訳（メタデータ） (2024-11-15T12:01:38Z)
Integrating Natural Language Prompting Tasks in Introductory Programming Courses [3.907735250728617]
本報告では、導入プログラミングコースに2つのプロンプトに焦点を当てたアクティビティを組み込むことについて検討する。第一に、学生は自然言語のプロンプトを書き、構文上の問題解決を強調することで、計算問題を解く必要がある。 2つ目は、プロンプトとコードの関係を理解するために、提供されたフラグメントに相当するコードを生成するプロンプトを作成することである。
論文参考訳（メタデータ） (2024-10-04T01:03:25Z)
Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation [0.24578723416255752]
テキスト・ツー・コード生成の能力について,5つの大言語モデル (LLM) を評価した。 ChatGPTはこれらの典型的なプログラミング課題を、Code Llamaのようなコード特化モデルよりもはるかに効果的に処理することができる。
論文参考訳（メタデータ） (2024-09-06T10:03:49Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。 CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
Linguacodus: A Synergistic Framework for Transformative Code Generation in Machine Learning Pipelines [0.0]
本稿では,自然言語のタスク記述を高レベルなデータ生成命令によってコードに変換する動的パイプラインを提案する。本稿では、微調整過程を詳述し、自然言語記述を関数型コードに変換する方法について光を当てる。本稿では,MLタスクの自然な記述を人間のインタラクションを最小限に抑えたコードに変換するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-18T08:58:47Z)
Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文参考訳（メタデータ） (2024-02-02T22:19:15Z)
Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
ulModel ulImprovement via ulNeuron ulTargeting (textscMINT)は、コード言語モデル(LM)を修復するための新しいアプローチである。 textscMINTは有効で効率的で信頼性が高く、最小数のニューロンにパッチを当てることで神経モデルを修正できる。
論文参考訳（メタデータ） (2023-12-08T20:28:08Z)
Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation [23.31928097405939]
言語モデルに融合した足場プログラムを用いて自己改善を行う。言語モデルにより、様々な自己改善戦略が提案されている。これは、近代的な言語モデルであるGPT-4が、自分自身を改善のために呼び出すことができるコードを書くことができることを実証している。
論文参考訳（メタデータ） (2023-10-03T17:59:32Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。 Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文参考訳（メタデータ） (2023-09-25T15:42:18Z)
Exploring the Robustness of Large Language Models for Solving Programming Problems [15.80687717725775]
我々は、ソースコード生成のためのいくつかの人気のある大規模言語モデル(LLM)の堅牢性を理解するために実験を行う。以上の結果から,CodeGenとCodexは問題記述の表面的な修正に敏感であり,コード生成性能に大きな影響を及ぼすことが示された。 InstructGPT(英語版)やChatGPT(英語版)のような最先端のSOTA(英語版)モデルは、表面的な修正に対して高い堅牢性を示し、プログラミング問題の解決に優れた能力を持っている。
論文参考訳（メタデータ） (2023-06-26T10:48:50Z)
Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。 Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文参考訳（メタデータ） (2022-11-29T18:56:33Z)
A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文参考訳（メタデータ） (2022-10-21T15:12:37Z)
Language Models Can Teach Themselves to Program Better [4.627023679353507]
近年の言語モデル (LM) は、人間の許可を受けた問題で訓練された場合、コード生成において画期的な性能を達成する。そこで本研究では,Pythonインタプリタの正しさをフィルタするプログラミング問題と解を,LMが合成可能であることを示す。 LMの性能は、独自の合成問題と検証された解を微調整することで改善される。
論文参考訳（メタデータ） (2022-07-29T06:43:28Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
Automatic Generation of Programming Exercises and Code Explanations with Large Language Models [4.947560475228859]
OpenAI Codexは、GPT-3ファミリーの最近の大規模言語モデルで、コードを自然言語に翻訳する。プログラミング演習の2つの段階において,Codexの自然言語生成能力について検討する。自動生成されるコンテンツの大部分は、新しいものでも、理にかなったものでも、多くの場合、そのまま使えるものなのです。
論文参考訳（メタデータ） (2022-06-03T11:00:43Z)
Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文参考訳（メタデータ） (2022-04-25T06:06:08Z)
A Conversational Paradigm for Program Synthesis [110.94409515865867]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文参考訳（メタデータ） (2022-03-25T06:55:15Z)
AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。 AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文参考訳（メタデータ） (2021-08-26T05:44:20Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。