Fugu-MT 論文翻訳(概要): Demystifying GPT Self-Repair for Code Generation

論文の概要: Demystifying GPT Self-Repair for Code Generation

arxiv url: http://arxiv.org/abs/2306.09896v3
Date: Thu, 22 Jun 2023 17:55:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-23 11:31:11.347604
Title: Demystifying GPT Self-Repair for Code Generation
Title（参考訳）: コード生成のためのGPT自己修復
Authors: Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao, Armando Solar-Lezama
Abstract要約: 我々はGPT-3.5とGPT-4のAPPSにおける自己修復能力について分析した。 GPT-4では自己修復の有効性がみられた。
参考スコア（独自算出の注目度）: 74.0359517564007
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have shown remarkable aptitude in code generation but still struggle on challenging programming tasks. Self-repair -- in which the model debugs and fixes mistakes in its own code -- has recently become a popular way to boost performance in these settings. However, only very limited studies on how and when self-repair works effectively exist in the literature, and one might wonder to what extent a model is really capable of providing accurate feedback on why the code is wrong when that code was generated by the same model. In this paper, we analyze GPT-3.5 and GPT-4's ability to perform self-repair on APPS, a challenging dataset consisting of diverse coding challenges. To do so, we first establish a new evaluation strategy dubbed pass@t that measures the pass rate of the tasks against the total number of tokens sampled from the model, enabling a fair comparison to purely sampling-based approaches. With this evaluation strategy, we find that the effectiveness of self-repair is only seen in GPT-4. We also observe that self-repair is bottlenecked by the feedback stage; using GPT-4 to give feedback on the programs generated by GPT-3.5 and using expert human programmers to give feedback on the programs generated by GPT-4, we unlock significant performance gains.
Abstract（参考訳）: 大規模言語モデル(LLM)はコード生成に顕著な適性を示しているが、それでも難しいプログラミングタスクに苦戦している。自己修復(Self-repair) — モデルが自身のコードでエラーをデバッグし修正する — は、最近、これらの設定のパフォーマンスを向上する一般的な方法になっている。しかし、どのようにして自己修復が効果的に機能するかに関するごく限られた研究だけが文献に存在し、同じモデルによってコードが生成されたときにコードがなぜ間違っているのかを、モデルが正確にフィードバックできるかどうか疑問に思うかもしれない。本稿では,GPT-3.5とGPT-4がAPPS上で自己修復を行う能力について分析する。そこで我々はまず,モデルからサンプリングされたトークンの総数に対してタスクの通過率を測定するpass@tと呼ばれる新しい評価戦略を確立し,純粋にサンプリングベースのアプローチと公正な比較を可能にする。この評価戦略により, GPT-4にのみ自己修復の有効性が認められる。また, GPT-4 を用いて GPT-3.5 で生成されたプログラムにフィードバックを与え, 専門家のプログラムに GPT-4 で生成されたプログラムにフィードバックを与えると, 大幅な性能向上が期待できる。

関連論文リスト

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning [0.9016229944691868]
本研究では,自己回帰学習と強化学習による大規模言語モデルの性能向上手法について検討する。モデルに誤った回答をしたとき、より優れた自己回帰を生成するためのインセンティブを与えることで、複雑な検証可能なタスクを解くモデルの能力が向上できることを実証する。
論文参考訳（メタデータ） (2025-05-30T15:49:42Z)
Self-Correcting Code Generation Using Small Language Models [11.4397549365277]
自己補正は、言語モデルが連続的な改善を通じて出力を修正および改善できるようにすることで、コード生成の可能性を実証している。マルチターンコード修正のための小型言語モデルの能力向上を目的としたアプローチであるCoCoSを紹介する。 1Bスケールのモデルでは、CoCoSはMBPPで35.8%、HumanEvalで27.7%の改善を実現している。
論文参考訳（メタデータ） (2025-05-29T04:04:44Z)
FeedbackEval: A Benchmark for Evaluating Large Language Models in Feedback-Driven Code Repair Tasks [28.849481030601666]
本稿では,大規模言語モデルのフィードバック理解と性能を評価するベンチマークであるFeedbackEvalを紹介する。我々は,GPT-4o,Claude-3.5,Gemini-1.5,GLM-4,Qwen2.5の5つの最先端LCMについて総合的研究を行った。その結果, 構造的フィードバック, 特にテストフィードバックの形では, 修復成功率が最も高く, 非構造的フィードバックは極めて少ないことがわかった。
論文参考訳（メタデータ） (2025-04-09T14:43:08Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Evolving LLMs' Self-Refinement Capability via Synergistic Training-Inference Optimization [53.93621974137829]
自己精製(Self-Refinement)とは、モデルが自身のレスポンスを改訂し、改善された出力を生成する能力を指す。 EVOLVEは、反復的なトレーニングを通じて自己精製の進化を導き、追跡するためのフレームワークである。固有モデル能力のより広範な自己改善を実現するために自己改善を活用する可能性を実証する。
論文参考訳（メタデータ） (2025-02-08T15:21:55Z)
Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。 SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。本稿では,自己改善のための数学的定式化について述べる。また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文参考訳（メタデータ） (2024-12-03T18:47:26Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文参考訳（メタデータ） (2024-06-03T16:21:38Z)
A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。 LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文参考訳（メタデータ） (2024-05-28T22:33:02Z)
Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (2024-04-26T03:41:28Z)
CYCLE: Learning to Self-Refine the Code Generation [19.71833229434497]
本稿では,CYCLEフレームワークを提案する。 350M, 1B, 2B, 3B のベンチマークで, パラメータ数が異なる CYCLE の4つの変種を実装した。その結果、CYCLEは一度のコード生成の品質を維持し、時には改善すると同時に、コードLMの自己抑制能力を大幅に改善することがわかった。
論文参考訳（メタデータ） (2024-03-27T16:45:02Z)
Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか? 弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文参考訳（メタデータ） (2023-12-14T23:07:33Z)
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs [27.777809444120827]
以前の作業では、アウトプットを修復する際のガイドとして、自然言語フィードバックを備えた言語モデルの提供が提案されていた。我々は,GPT-3のエンドタスク性能を最大化するために,批判生成を訓練するマルチエージェント協調フレームワークRL4Fを紹介する。複数のテキスト類似度指標の相対的な改善は、他の学習、検索強化、あるいはプロンプトに基づく批判ジェネレータと比べて最大10%向上する。
論文参考訳（メタデータ） (2023-05-15T17:57:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。