Fugu-MT 論文翻訳(概要): RePair: Automated Program Repair with Process-based Feedback

論文の概要: RePair: Automated Program Repair with Process-based Feedback

arxiv url: http://arxiv.org/abs/2408.11296v1
Date: Wed, 21 Aug 2024 02:53:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 18:38:57.993484
Title: RePair: Automated Program Repair with Process-based Feedback
Title（参考訳）: RePair: プロセスベースのフィードバックでプログラムの修正を自動化する
Authors: Yuze Zhao, Zhenya Huang, Yixiao Ma, Rui Li, Kai Zhang, Hao Jiang, Qi Liu, Linbo Zhu, Yu Su,
Abstract要約: 本稿では,プロセスの監督とフィードバックによって,小規模言語モデル(LM)が優れたパフォーマンスを実現する方法を示す。我々は、批評家として機能する報酬モデルを開発し、微調整されたLMの行動に対するフィードバックを提供する。その結果, プロセスベースでは, より大きな結果に基づく生成方法よりも, クローズドソースの大規模LMの性能にほぼ匹敵する結果が得られた。
参考スコア（独自算出の注目度）: 28.017321930042694
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The gap between the trepidation of program reliability and the expense of repairs underscores the indispensability of Automated Program Repair (APR). APR is instrumental in transforming vulnerable programs into more robust ones, bolstering program reliability while simultaneously diminishing the financial burden of manual repairs. Commercial-scale language models (LM) have taken APR to unprecedented levels. However, the emergence reveals that for models fewer than 100B parameters, making single-step modifications may be difficult to achieve the desired effect. Moreover, humans interact with the LM through explicit prompts, which hinders the LM from receiving feedback from compiler and test cases to automatically optimize its repair policies. In this literature, we explore how small-scale LM (less than 20B) achieve excellent performance through process supervision and feedback. We start by constructing a dataset named CodeNet4Repair, replete with multiple repair records, which supervises the fine-tuning of a foundational model. Building upon the encouraging outcomes of reinforcement learning, we develop a reward model that serves as a critic, providing feedback for the fine-tuned LM's action, progressively optimizing its policy. During inference, we require the LM to generate solutions iteratively until the repair effect no longer improves or hits the maximum step limit. The results show that process-based not only outperforms larger outcome-based generation methods, but also nearly matches the performance of closed-source commercial large-scale LMs.
Abstract（参考訳）: プログラム信頼性の低下と修理費用のギャップは、自動プログラム修復(APR)の欠如を浮き彫りにする。 APRは、脆弱なプログラムをより堅牢なプログラムに変換するのに役立ち、プログラムの信頼性を高めながら、手動修理の経済的負担を軽減します。商業規模の言語モデル(LM)は、APRを前例のないレベルに引き上げた。しかし、100B未満のモデルでは、単一ステップの修正が望ましい効果を達成するのが困難であることが明らかになった。さらに、人間は明示的なプロンプトを通じてLMと対話し、LMがコンパイラやテストケースからのフィードバックを受けないようにし、自動的に修復ポリシーを最適化する。本稿では,20B未満の小規模LMが,プロセスの監視とフィードバックを通じて優れた性能を実現する方法について検討する。まず、CodeNet4Repairというデータセットを構築し、基礎モデルの微調整を監督する複数の修復レコードを再利用します。強化学習の奨励的な成果を生かし,批判者として機能する報酬モデルを構築し,微調整されたLMの行動に対するフィードバックを提供し,その政策を段階的に最適化する。推論中は、修復効果が改善されなくなるか、最大ステップ限界に達するまで、LMが反復的にソリューションを生成する必要がある。その結果, プロセスベースでは, より大きな結果に基づく生成方法よりも, クローズドソースの大規模LMの性能にほぼ匹敵する結果が得られた。

関連論文リスト

ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-04-02T06:38:56Z)
Self-Corrective Task Planning by Inverse Prompting with Large Language Models [9.283971287618261]
InversePromptは,新しい自己修正型タスクプランニング手法である。提案手法は、明確な解釈可能なフィードバックを提供するための推論ステップを組み込んだものである。ベンチマークデータセットの結果は、既存のLCMベースのタスク計画手法よりも平均16.3%高い成功率を示している。
論文参考訳（メタデータ） (2025-03-10T13:35:51Z)
Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。 RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文参考訳（メタデータ） (2025-03-03T12:54:54Z)
IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Agents [17.301758094000125]
大規模言語モデル(LLM)エージェントは、コンピュータビジョンモデルの開発を自動化するための有望なソリューションとして登場した。 LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを導入する。イテレーティブリファインメントは安定性、解釈可能性、全体的なモデルパフォーマンスを改善します。
論文参考訳（メタデータ） (2025-02-25T01:52:37Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文参考訳（メタデータ） (2024-11-26T00:44:37Z)
FastFixer: An Efficient and Effective Approach for Repairing Programming Assignments [21.848112758958543]
本稿では,FastFixerを提案する。まず,必要なパッチと関連するコンテキストを生成する方法を学ぶことへのLLMの関心を高めることを目的とした,修復指向のファインチューニング戦略を提案する。修復効率を考慮すると、FastFixerは自動回帰復号アルゴリズムと比較して16.67倍の高速化を実現している。
論文参考訳（メタデータ） (2024-10-11T10:17:02Z)
On The Effectiveness of Dynamic Reduction Techniques in Automated Program Repair [1.7767466724342067]
本稿では,大規模バグ修正プログラムを効果的に処理するプログラム修復フレームワークについて述べる。このフレームワークは、プログラムスライシングの形式でプログラムの削減を利用して、修正中のバグとは無関係にコードの一部を除去する。広く使用されているDefects4Jデータセットに対する実験結果から,修復品質の劣化を伴わずに,大幅な性能向上が達成できることが判明した。
論文参考訳（メタデータ） (2024-06-23T21:35:07Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Multi-Objective Fine-Tuning for Enhanced Program Repair with LLMs [16.890411067079885]
大規模言語モデル(LLM)は、幅広い下流タスクにおいて顕著な機能を示した。プログラム修復のためのLLMファインチューニングの学習焦点に関する新しい視点を提案する。我々はMORepairを、サイズやアーキテクチャの異なる4つのオープンソースLCMの微調整に応用する。
論文参考訳（メタデータ） (2024-04-19T05:36:21Z)
Peer-aided Repairer: Empowering Large Language Models to Repair Advanced Student Assignments [26.236420215606238]
我々は,大規模言語モデルを利用したPaRというフレームワークを開発した。 PaRは、ピアソリューション選択、マルチソースプロンプト生成、プログラム修復の3段階で動作する。 Defects4DSと他のよく検証されたTHEPデータセットの評価は、PaRが新しい最先端のパフォーマンスを達成することを明らかにしている。
論文参考訳（メタデータ） (2024-04-02T09:12:21Z)
Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文参考訳（メタデータ） (2024-03-07T03:24:34Z)
Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文参考訳（メタデータ） (2024-02-03T09:48:54Z)
Enhancing Large Language Model Performance To Answer Questions and Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文参考訳（メタデータ） (2024-01-27T00:18:07Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。