Fugu-MT 論文翻訳(概要): Is Self-Repair a Silver Bullet for Code Generation?

論文の概要: Is Self-Repair a Silver Bullet for Code Generation?

arxiv url: http://arxiv.org/abs/2306.09896v5
Date: Fri, 2 Feb 2024 18:31:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 20:18:30.120445
Title: Is Self-Repair a Silver Bullet for Code Generation?
Title（参考訳）: 自己修復はコード生成のための銀の弾丸か?
Authors: Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao, Armando Solar-Lezama
Abstract要約: 大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも複雑なタスクを実行するのに苦労している。自己修復(Self-repair) — モデルが自身のコードをデバッグし、修復する — は、最近、パフォーマンスを向上する一般的な方法になっている。我々は,Code Llama, GPT-3.5, GPT-4によるHumanEvalとAPPSの自己修復能力について分析した。
参考スコア（独自算出の注目度）: 68.02601393906083
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models have shown remarkable aptitude in code generation, but still struggle to perform complex tasks. Self-repair -- in which the model debugs and repairs its own code -- has recently become a popular way to boost performance in these settings. However, despite its increasing popularity, existing studies of self-repair have been limited in scope; in many settings, its efficacy thus remains poorly understood. In this paper, we analyze Code Llama, GPT-3.5 and GPT-4's ability to perform self-repair on problems taken from HumanEval and APPS. We find that when the cost of carrying out repair is taken into account, performance gains are often modest, vary a lot between subsets of the data, and are sometimes not present at all. We hypothesize that this is because self-repair is bottlenecked by the model's ability to provide feedback on its own code; using a stronger model to artificially boost the quality of the feedback, we observe substantially larger performance gains. Similarly, a small-scale study in which we provide GPT-4 with feedback from human participants suggests that even for the strongest models, self-repair still lags far behind what can be achieved with human-level debugging.
Abstract（参考訳）: 大規模な言語モデルはコード生成に著しい適性を示しているが、それでも複雑なタスクの実行に苦労している。自己修復 — モデルが自身のコードをデバッグし、修復する — は、最近、これらの設定のパフォーマンスを高める一般的な方法になっている。しかし、その人気にもかかわらず、既存の自己修復研究の範囲は限られており、多くの設定においてその効果はいまだに理解されていない。本稿では,Code Llama, GPT-3.5, GPT-4によるHumanEvalとAPPSの自己修復能力について分析する。修復のコストを考慮すると、パフォーマンスの向上はしばしば控えめで、データのサブセットによって大きく異なり、時にはまったく存在しません。これは、自己修復が、モデルが自身のコードに対してフィードバックを提供する能力によってボトルネックになっているためである、という仮説を立てる。同様に、人間の参加者からのフィードバックをGPT-4で提供する小規模な研究は、最強のモデルであっても、人間レベルのデバッグで達成できるよりもはるかに遅れていることを示唆している。

関連論文リスト

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning [0.9016229944691868]
本研究では,自己回帰学習と強化学習による大規模言語モデルの性能向上手法について検討する。モデルに誤った回答をしたとき、より優れた自己回帰を生成するためのインセンティブを与えることで、複雑な検証可能なタスクを解くモデルの能力が向上できることを実証する。
論文参考訳（メタデータ） (2025-05-30T15:49:42Z)
Self-Correcting Code Generation Using Small Language Models [11.4397549365277]
自己補正は、言語モデルが連続的な改善を通じて出力を修正および改善できるようにすることで、コード生成の可能性を実証している。マルチターンコード修正のための小型言語モデルの能力向上を目的としたアプローチであるCoCoSを紹介する。 1Bスケールのモデルでは、CoCoSはMBPPで35.8%、HumanEvalで27.7%の改善を実現している。
論文参考訳（メタデータ） (2025-05-29T04:04:44Z)
FeedbackEval: A Benchmark for Evaluating Large Language Models in Feedback-Driven Code Repair Tasks [28.849481030601666]
本稿では,大規模言語モデルのフィードバック理解と性能を評価するベンチマークであるFeedbackEvalを紹介する。我々は,GPT-4o,Claude-3.5,Gemini-1.5,GLM-4,Qwen2.5の5つの最先端LCMについて総合的研究を行った。その結果, 構造的フィードバック, 特にテストフィードバックの形では, 修復成功率が最も高く, 非構造的フィードバックは極めて少ないことがわかった。
論文参考訳（メタデータ） (2025-04-09T14:43:08Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。 SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。本稿では,自己改善のための数学的定式化について述べる。また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文参考訳（メタデータ） (2024-12-03T18:47:26Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文参考訳（メタデータ） (2024-06-03T16:21:38Z)
A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。 LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文参考訳（メタデータ） (2024-05-28T22:33:02Z)
Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (2024-04-26T03:41:28Z)
CYCLE: Learning to Self-Refine the Code Generation [19.71833229434497]
本稿では,CYCLEフレームワークを提案する。 350M, 1B, 2B, 3B のベンチマークで, パラメータ数が異なる CYCLE の4つの変種を実装した。その結果、CYCLEは一度のコード生成の品質を維持し、時には改善すると同時に、コードLMの自己抑制能力を大幅に改善することがわかった。
論文参考訳（メタデータ） (2024-03-27T16:45:02Z)
Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか? 弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文参考訳（メタデータ） (2023-12-14T23:07:33Z)
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs [27.777809444120827]
以前の作業では、アウトプットを修復する際のガイドとして、自然言語フィードバックを備えた言語モデルの提供が提案されていた。我々は,GPT-3のエンドタスク性能を最大化するために,批判生成を訓練するマルチエージェント協調フレームワークRL4Fを紹介する。複数のテキスト類似度指標の相対的な改善は、他の学習、検索強化、あるいはプロンプトに基づく批判ジェネレータと比べて最大10%向上する。
論文参考訳（メタデータ） (2023-05-15T17:57:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。