論文の概要: Is Self-Repair a Silver Bullet for Code Generation?
- arxiv url: http://arxiv.org/abs/2306.09896v4
- Date: Tue, 17 Oct 2023 17:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 21:21:15.719249
- Title: Is Self-Repair a Silver Bullet for Code Generation?
- Title(参考訳): 自己修復はコード生成のための銀の弾丸か?
- Authors: Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao,
Armando Solar-Lezama
- Abstract要約: 大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも困難なタスクに苦戦している。
我々は,Code Llama, GPT-3.5, GPT-4がHumanEvalやAPPSから得られる問題に対して自己修復を行う能力について分析する。
修理のコストを考慮すると、利得はしばしば控えめで、データのサブセット間で大きく異なり、時には全く存在しないことが分かる。
- 参考スコア(独自算出の注目度): 68.02601393906083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have shown remarkable aptitude in code generation, but
still struggle on challenging tasks. Self-repair -- in which the model debugs
and fixes mistakes in its own code -- has recently become a popular way to
boost performance in these settings. However, only very limited studies on how
and when self-repair works effectively exist in the literature, and one might
wonder to what extent a model is really capable of repairing mistakes in code
which was originally generated by that very same model. In this paper, we
analyze Code Llama, GPT-3.5 and GPT-4's ability to perform self-repair on
problems taken from HumanEval or APPS, finding that when the cost of carrying
out repair is taken into account, gains are often modest, vary significantly
between subsets of the data, and are sometimes not present at all. We
hypothesize that this is because self-repair is bottlenecked by the model's
ability to provide feedback on its own code; boosting the feedback with
stronger models, we observe performance gains even in settings where the model
does not benefit from self-repair. Finally, we find that providing the model
with feedback from human participants greatly benefits repair even for GPT-4,
and carry out a brief qualitative analysis of the differences observed.
- Abstract(参考訳): 大規模な言語モデルはコード生成に顕著な適性を示しているが、それでも困難なタスクに苦戦している。
自己修復(Self-repair) — モデルが自身のコードでエラーをデバッグし修正する — は、最近、これらの設定のパフォーマンスを高める手段として人気になっている。
しかし、どのようにして自己修復が効果的に機能するかに関するごく限られた研究だけが文献に存在し、モデルがそもそも同じモデルによって生成されたコードの誤りをいかに修復できるかを疑問視しているかもしれない。
本稿では,人間性やアプリから発生する問題に対して,コードllama,gpt-3.5,gpt-4の自己修復能力を分析し,修復コストを考慮した場合,利得は控えめで,データのサブセット間で大きく異なり,時には存在しないことを発見した。
これは、自己修復は、モデルが自身のコードに対してフィードバックを提供する能力にボトルネックがあるためである、という仮説を立てている。
最後に,gpt-4においても,人体からのフィードバックによるモデル提供は修復に大いに有効であり,観察した違いを簡潔に定性的に分析する。
関連論文リスト
- Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
本研究は,より小さい (= 13B) 言語モデル (LM) が,より強い LM から最小限の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - CYCLE: Learning to Self-Refine the Code Generation [19.71833229434497]
本稿では,CYCLEフレームワークを提案する。
350M, 1B, 2B, 3B のベンチマークで, パラメータ数が異なる CYCLE の4つの変種を実装した。
その結果、CYCLEは一度のコード生成の品質を維持し、時には改善すると同時に、コードLMの自己抑制能力を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2024-03-27T16:45:02Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-12-14T23:07:33Z) - RL4F: Generating Natural Language Feedback with Reinforcement Learning
for Repairing Model Outputs [27.777809444120827]
以前の作業では、アウトプットを修復する際のガイドとして、自然言語フィードバックを備えた言語モデルの提供が提案されていた。
我々は,GPT-3のエンドタスク性能を最大化するために,批判生成を訓練するマルチエージェント協調フレームワークRL4Fを紹介する。
複数のテキスト類似度指標の相対的な改善は、他の学習、検索強化、あるいはプロンプトに基づく批判ジェネレータと比べて最大10%向上する。
論文 参考訳(メタデータ) (2023-05-15T17:57:16Z) - Aligning Offline Metrics and Human Judgments of Value for Code
Generation Models [25.726216146776054]
正確性は高価値な世代をキャプチャするが、プログラマは、コーディングタスクの完了に必要な全体的な労力を減らすことで、単体テストに失敗するコードを価値として評価する。
本稿では,機能的正しさと構文的類似性を組み合わせたハイブリッド計量を提案し,値との相関が14%強いことを示す。
論文 参考訳(メタデータ) (2022-10-29T05:03:28Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (2022-06-09T17:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。