論文の概要: Is Self-Repair a Silver Bullet for Code Generation?
- arxiv url: http://arxiv.org/abs/2306.09896v4
- Date: Tue, 17 Oct 2023 17:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 21:21:15.719249
- Title: Is Self-Repair a Silver Bullet for Code Generation?
- Title(参考訳): 自己修復はコード生成のための銀の弾丸か?
- Authors: Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao,
Armando Solar-Lezama
- Abstract要約: 大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも困難なタスクに苦戦している。
我々は,Code Llama, GPT-3.5, GPT-4がHumanEvalやAPPSから得られる問題に対して自己修復を行う能力について分析する。
修理のコストを考慮すると、利得はしばしば控えめで、データのサブセット間で大きく異なり、時には全く存在しないことが分かる。
- 参考スコア(独自算出の注目度): 68.02601393906083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have shown remarkable aptitude in code generation, but
still struggle on challenging tasks. Self-repair -- in which the model debugs
and fixes mistakes in its own code -- has recently become a popular way to
boost performance in these settings. However, only very limited studies on how
and when self-repair works effectively exist in the literature, and one might
wonder to what extent a model is really capable of repairing mistakes in code
which was originally generated by that very same model. In this paper, we
analyze Code Llama, GPT-3.5 and GPT-4's ability to perform self-repair on
problems taken from HumanEval or APPS, finding that when the cost of carrying
out repair is taken into account, gains are often modest, vary significantly
between subsets of the data, and are sometimes not present at all. We
hypothesize that this is because self-repair is bottlenecked by the model's
ability to provide feedback on its own code; boosting the feedback with
stronger models, we observe performance gains even in settings where the model
does not benefit from self-repair. Finally, we find that providing the model
with feedback from human participants greatly benefits repair even for GPT-4,
and carry out a brief qualitative analysis of the differences observed.
- Abstract(参考訳): 大規模な言語モデルはコード生成に顕著な適性を示しているが、それでも困難なタスクに苦戦している。
自己修復(Self-repair) — モデルが自身のコードでエラーをデバッグし修正する — は、最近、これらの設定のパフォーマンスを高める手段として人気になっている。
しかし、どのようにして自己修復が効果的に機能するかに関するごく限られた研究だけが文献に存在し、モデルがそもそも同じモデルによって生成されたコードの誤りをいかに修復できるかを疑問視しているかもしれない。
本稿では,人間性やアプリから発生する問題に対して,コードllama,gpt-3.5,gpt-4の自己修復能力を分析し,修復コストを考慮した場合,利得は控えめで,データのサブセット間で大きく異なり,時には存在しないことを発見した。
これは、自己修復は、モデルが自身のコードに対してフィードバックを提供する能力にボトルネックがあるためである、という仮説を立てている。
最後に,gpt-4においても,人体からのフィードバックによるモデル提供は修復に大いに有効であり,観察した違いを簡潔に定性的に分析する。
関連論文リスト
- Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。
自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。
本稿では,自己改善のための数学的定式化について述べる。
また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文 参考訳(メタデータ) (2024-12-03T18:47:26Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-12-14T23:07:33Z) - RL4F: Generating Natural Language Feedback with Reinforcement Learning
for Repairing Model Outputs [27.777809444120827]
以前の作業では、アウトプットを修復する際のガイドとして、自然言語フィードバックを備えた言語モデルの提供が提案されていた。
我々は,GPT-3のエンドタスク性能を最大化するために,批判生成を訓練するマルチエージェント協調フレームワークRL4Fを紹介する。
複数のテキスト類似度指標の相対的な改善は、他の学習、検索強化、あるいはプロンプトに基づく批判ジェネレータと比べて最大10%向上する。
論文 参考訳(メタデータ) (2023-05-15T17:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。