Fugu-MT 論文翻訳(概要): Is Self-Repair a Silver Bullet for Code Generation?

論文の概要: Is Self-Repair a Silver Bullet for Code Generation?

arxiv url: http://arxiv.org/abs/2306.09896v4
Date: Tue, 17 Oct 2023 17:51:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 21:21:15.719249
Title: Is Self-Repair a Silver Bullet for Code Generation?
Title（参考訳）: 自己修復はコード生成のための銀の弾丸か?
Authors: Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao, Armando Solar-Lezama
Abstract要約: 大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも困難なタスクに苦戦している。我々は,Code Llama, GPT-3.5, GPT-4がHumanEvalやAPPSから得られる問題に対して自己修復を行う能力について分析する。修理のコストを考慮すると、利得はしばしば控えめで、データのサブセット間で大きく異なり、時には全く存在しないことが分かる。
参考スコア（独自算出の注目度）: 68.02601393906083
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models have shown remarkable aptitude in code generation, but still struggle on challenging tasks. Self-repair -- in which the model debugs and fixes mistakes in its own code -- has recently become a popular way to boost performance in these settings. However, only very limited studies on how and when self-repair works effectively exist in the literature, and one might wonder to what extent a model is really capable of repairing mistakes in code which was originally generated by that very same model. In this paper, we analyze Code Llama, GPT-3.5 and GPT-4's ability to perform self-repair on problems taken from HumanEval or APPS, finding that when the cost of carrying out repair is taken into account, gains are often modest, vary significantly between subsets of the data, and are sometimes not present at all. We hypothesize that this is because self-repair is bottlenecked by the model's ability to provide feedback on its own code; boosting the feedback with stronger models, we observe performance gains even in settings where the model does not benefit from self-repair. Finally, we find that providing the model with feedback from human participants greatly benefits repair even for GPT-4, and carry out a brief qualitative analysis of the differences observed.
Abstract（参考訳）: 大規模な言語モデルはコード生成に顕著な適性を示しているが、それでも困難なタスクに苦戦している。自己修復(Self-repair) — モデルが自身のコードでエラーをデバッグし修正する — は、最近、これらの設定のパフォーマンスを高める手段として人気になっている。しかし、どのようにして自己修復が効果的に機能するかに関するごく限られた研究だけが文献に存在し、モデルがそもそも同じモデルによって生成されたコードの誤りをいかに修復できるかを疑問視しているかもしれない。本稿では,人間性やアプリから発生する問題に対して,コードllama,gpt-3.5,gpt-4の自己修復能力を分析し,修復コストを考慮した場合,利得は控えめで,データのサブセット間で大きく異なり,時には存在しないことを発見した。これは、自己修復は、モデルが自身のコードに対してフィードバックを提供する能力にボトルネックがあるためである、という仮説を立てている。最後に,gpt-4においても,人体からのフィードバックによるモデル提供は修復に大いに有効であり,観察した違いを簡潔に定性的に分析する。

関連論文リスト

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning [0.9016229944691868]
本研究では,自己回帰学習と強化学習による大規模言語モデルの性能向上手法について検討する。モデルに誤った回答をしたとき、より優れた自己回帰を生成するためのインセンティブを与えることで、複雑な検証可能なタスクを解くモデルの能力が向上できることを実証する。
論文参考訳（メタデータ） (2025-05-30T15:49:42Z)
Self-Correcting Code Generation Using Small Language Models [11.4397549365277]
自己補正は、言語モデルが連続的な改善を通じて出力を修正および改善できるようにすることで、コード生成の可能性を実証している。マルチターンコード修正のための小型言語モデルの能力向上を目的としたアプローチであるCoCoSを紹介する。 1Bスケールのモデルでは、CoCoSはMBPPで35.8%、HumanEvalで27.7%の改善を実現している。
論文参考訳（メタデータ） (2025-05-29T04:04:44Z)
FeedbackEval: A Benchmark for Evaluating Large Language Models in Feedback-Driven Code Repair Tasks [28.849481030601666]
本稿では,大規模言語モデルのフィードバック理解と性能を評価するベンチマークであるFeedbackEvalを紹介する。我々は,GPT-4o,Claude-3.5,Gemini-1.5,GLM-4,Qwen2.5の5つの最先端LCMについて総合的研究を行った。その結果, 構造的フィードバック, 特にテストフィードバックの形では, 修復成功率が最も高く, 非構造的フィードバックは極めて少ないことがわかった。
論文参考訳（メタデータ） (2025-04-09T14:43:08Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。 SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。本稿では,自己改善のための数学的定式化について述べる。また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文参考訳（メタデータ） (2024-12-03T18:47:26Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文参考訳（メタデータ） (2024-06-03T16:21:38Z)
A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。 LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文参考訳（メタデータ） (2024-05-28T22:33:02Z)
Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (2024-04-26T03:41:28Z)
CYCLE: Learning to Self-Refine the Code Generation [19.71833229434497]
本稿では,CYCLEフレームワークを提案する。 350M, 1B, 2B, 3B のベンチマークで, パラメータ数が異なる CYCLE の4つの変種を実装した。その結果、CYCLEは一度のコード生成の品質を維持し、時には改善すると同時に、コードLMの自己抑制能力を大幅に改善することがわかった。
論文参考訳（メタデータ） (2024-03-27T16:45:02Z)
Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか? 弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文参考訳（メタデータ） (2023-12-14T23:07:33Z)
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs [27.777809444120827]
以前の作業では、アウトプットを修復する際のガイドとして、自然言語フィードバックを備えた言語モデルの提供が提案されていた。我々は,GPT-3のエンドタスク性能を最大化するために,批判生成を訓練するマルチエージェント協調フレームワークRL4Fを紹介する。複数のテキスト類似度指標の相対的な改善は、他の学習、検索強化、あるいはプロンプトに基づく批判ジェネレータと比べて最大10%向上する。
論文参考訳（メタデータ） (2023-05-15T17:57:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。