論文の概要: PatchPilot: A Stable and Cost-Efficient Agentic Patching Framework
- arxiv url: http://arxiv.org/abs/2502.02747v1
- Date: Tue, 04 Feb 2025 22:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:27:35.880551
- Title: PatchPilot: A Stable and Cost-Efficient Agentic Patching Framework
- Title(参考訳): PatchPilot: 安定的で費用対効果の高いエージェントパッチフレームワーク
- Authors: Hongwei Li, Yuheng Tang, Shiqi Wang, Wenbo Guo,
- Abstract要約: パッチの有効性,安定性,コスト効率のバランスをとるエージェントパッチであるPatchPilotを提案する。
PatchPilotは、コスト(インスタンスあたり1ドル未満)を維持し、より高い安定性を確保しながら、既存のオープンソースメソッドよりも優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 13.582585807306
- License:
- Abstract: Recent research builds various patching agents that combine large language models (LLMs) with non-ML tools and achieve promising results on the state-of-the-art (SOTA) software patching benchmark, SWE-Bench. Based on how to determine the patching workflows, existing patching agents can be categorized as agent-based planning methods, which rely on LLMs for planning, and human-based planning methods, which follow a pre-defined workflow. At a high level, agent-based planning methods achieve high patching performance but with a high cost and limited stability. Human-based planning methods, on the other hand, are more stable and efficient but have key workflow limitations that compromise their patching performance. In this paper, we propose PatchPilot, an agentic patcher that strikes a balance between patching efficacy, stability, and cost-efficiency. PatchPilot proposes a novel human-based planning workflow with five components: reproduction, localization, generation, validation, and refinement (where refinement is unique to PatchPilot). We introduce novel and customized designs to each component to optimize their effectiveness and efficiency. Through extensive experiments on the SWE-Bench benchmarks, PatchPilot shows a superior performance than existing open-source methods while maintaining low cost (less than 1$ per instance) and ensuring higher stability. We also conduct a detailed ablation study to validate the key designs in each component.
- Abstract(参考訳): 最近の研究は、大規模言語モデル(LLM)と非MLツールを組み合わせた様々なパッチエージェントを構築し、最先端(SOTA)ソフトウェアパッチベンチマークであるSWE-Benchで有望な結果を得た。
パッチのワークフローを決定する方法に基づいて、既存のパッチエージェントは、計画のためのLSMに依存するエージェントベースの計画方法と、事前に定義されたワークフローに従う人間ベースの計画方法に分類することができる。
高レベルでは、エージェントベースの計画手法は高いパッチ性能を実現するが、コストが高く、安定性が制限される。
一方、人間ベースの計画手法はより安定的で効率的であるが、パッチのパフォーマンスを損なう重要なワークフローの制限がある。
本稿では,パッチの有効性,安定性,コスト効率のバランスをとるエージェントパッチであるPatchPilotを提案する。
PatchPilotは、再現、ローカライゼーション、生成、バリデーション、リファインメント(PatchPilot特有のリファインメント)という5つのコンポーネントを備えた、人間ベースの新しい計画ワークフローを提案する。
各コンポーネントに新規でカスタマイズされた設計を導入し、その効率と効率を最適化する。
SWE-Benchベンチマークに関する広範な実験を通じて、PatchPilotは、コスト(インスタンス当たり1ドル未満)を維持し、より高い安定性を確保しながら、既存のオープンソースメソッドよりも優れたパフォーマンスを示している。
また、各コンポーネントのキーデザインを検証するための詳細なアブレーション研究も行います。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Parameter-Efficient Fine-Tuning of Large Language Models for Unit Test Generation: An Empirical Study [3.5189934649278922]
GitHub Copilotのような大規模言語モデル(LLM)は、微調整なしで現実世界のタスクに苦労する。
本稿では,LoRA, (IA)3, およびプロンプトチューニングを含む各種PEFT法について検討する。
その結果,PEFT法は単体テスト生成のための完全微調整に匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-04T09:03:18Z) - Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - BIPEFT: Budget-Guided Iterative Search for Parameter Efficient Fine-Tuning of Large Pretrained Language Models [63.52035708182815]
自動PEFT(BIPEFT)のための新しいBudget-Guided Iterative Search戦略を提案する。
BIPEFTはバイナリモジュールとランク次元検索空間をアンタングルするために,新たな反復探索方式を採用している。
公開ベンチマークの大規模な実験は、パラメータ予算の低い下流タスクにおいて、BIPEFTの優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T18:50:46Z) - Hybrid Automated Program Repair by Combining Large Language Models and Program Analysis [12.7034916462208]
自動プログラム修復(APR)は、人間の開発者のバグ修正プロセスを合理化する可能性から、大きな注目を集めている。
本稿ではGIANTREPAIRと呼ばれる革新的なAPR手法を紹介する。
この知見に基づいて、GIANTREPAIRはまず、LLM生成したパッチからパッチスケルトンを構築して、パッチ空間を閉じ込め、その後、特定のプログラムに適した高品質なパッチを生成する。
論文 参考訳(メタデータ) (2024-06-03T05:05:12Z) - AtP*: An efficient and scalable method for localizing LLM behaviour to
components [6.47684348405662]
Attribution Patching (AtP) は高速勾配に基づく Activation Patching の近似である。
本稿では,アクティベーションパッチの高速化のためのAtPと代替手法に関する最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2024-03-01T18:43:51Z) - RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation [30.797422827190278]
本稿ではロバスト適応法 (RoSA) と呼ばれる新しいPEFT法を提案する。
RoSAは、固定された事前トレーニングされた重みのセットの上に、$textitlow-rank$と$textithighly-sparse$コンポーネントをトレーニングする。
また,RoSAがLoRA,純スパース微調整,代替ハイブリット法を同じパラメータ予算で上回ることを示す。
論文 参考訳(メタデータ) (2024-01-09T17:09:01Z) - Patch-aware Batch Normalization for Improving Cross-domain Robustness [55.06956781674986]
クロスドメインタスクは、トレーニングセットとテストセットが異なるディストリビューションに従うと、モデルのパフォーマンスが低下する課題を示す。
パッチ対応バッチ正規化(PBN)と呼ばれる新しい手法を提案する。
画像の局所的なパッチの違いを利用して、提案したPBNはモデルパラメータの堅牢性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-04-06T03:25:42Z) - UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文 参考訳(メタデータ) (2021-10-14T17:40:08Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。