Fugu-MT 論文翻訳(概要): PatchPilot: A Stable and Cost-Efficient Agentic Patching Framework

論文の概要: PatchPilot: A Stable and Cost-Efficient Agentic Patching Framework

arxiv url: http://arxiv.org/abs/2502.02747v1
Date: Tue, 04 Feb 2025 22:30:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 16:28:50.876405
Title: PatchPilot: A Stable and Cost-Efficient Agentic Patching Framework
Title（参考訳）: PatchPilot: 安定的で費用対効果の高いエージェントパッチフレームワーク
Authors: Hongwei Li, Yuheng Tang, Shiqi Wang, Wenbo Guo,
Abstract要約: パッチの有効性,安定性,コスト効率のバランスをとるエージェントパッチであるPatchPilotを提案する。 PatchPilotは、コスト(インスタンスあたり1ドル未満)を維持し、より高い安定性を確保しながら、既存のオープンソースメソッドよりも優れたパフォーマンスを示している。
参考スコア（独自算出の注目度）: 13.582585807306
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research builds various patching agents that combine large language models (LLMs) with non-ML tools and achieve promising results on the state-of-the-art (SOTA) software patching benchmark, SWE-Bench. Based on how to determine the patching workflows, existing patching agents can be categorized as agent-based planning methods, which rely on LLMs for planning, and human-based planning methods, which follow a pre-defined workflow. At a high level, agent-based planning methods achieve high patching performance but with a high cost and limited stability. Human-based planning methods, on the other hand, are more stable and efficient but have key workflow limitations that compromise their patching performance. In this paper, we propose PatchPilot, an agentic patcher that strikes a balance between patching efficacy, stability, and cost-efficiency. PatchPilot proposes a novel human-based planning workflow with five components: reproduction, localization, generation, validation, and refinement (where refinement is unique to PatchPilot). We introduce novel and customized designs to each component to optimize their effectiveness and efficiency. Through extensive experiments on the SWE-Bench benchmarks, PatchPilot shows a superior performance than existing open-source methods while maintaining low cost (less than 1$ per instance) and ensuring higher stability. We also conduct a detailed ablation study to validate the key designs in each component.
Abstract（参考訳）: 最近の研究は、大規模言語モデル(LLM)と非MLツールを組み合わせた様々なパッチエージェントを構築し、最先端(SOTA)ソフトウェアパッチベンチマークであるSWE-Benchで有望な結果を得た。パッチのワークフローを決定する方法に基づいて、既存のパッチエージェントは、計画のためのLSMに依存するエージェントベースの計画方法と、事前に定義されたワークフローに従う人間ベースの計画方法に分類することができる。高レベルでは、エージェントベースの計画手法は高いパッチ性能を実現するが、コストが高く、安定性が制限される。一方、人間ベースの計画手法はより安定的で効率的であるが、パッチのパフォーマンスを損なう重要なワークフローの制限がある。本稿では,パッチの有効性,安定性,コスト効率のバランスをとるエージェントパッチであるPatchPilotを提案する。 PatchPilotは、再現、ローカライゼーション、生成、バリデーション、リファインメント(PatchPilot特有のリファインメント)という5つのコンポーネントを備えた、人間ベースの新しい計画ワークフローを提案する。各コンポーネントに新規でカスタマイズされた設計を導入し、その効率と効率を最適化する。 SWE-Benchベンチマークに関する広範な実験を通じて、PatchPilotは、コスト(インスタンス当たり1ドル未満)を維持し、より高い安定性を確保しながら、既存のオープンソースメソッドよりも優れたパフォーマンスを示している。また、各コンポーネントのキーデザインを検証するための詳細なアブレーション研究も行います。

関連論文リスト

DiaBlo: Diagonal Blocks Are Sufficient For Finetuning [5.615105036691153]
選択したモデル重み行列の対角ブロックのみを更新するPEFTアプローチであるDiaBloを提案する。ローランク適応(LoRA)とその変種とは異なり、ダイアブロはローランク行列生成物の必要性を排除している。この設計は、LoRAに匹敵するメモリ効率とトレーニング速度を維持しながら、安定かつ堅牢な収束をもたらす。
論文参考訳（メタデータ） (2025-06-03T13:47:59Z)
PGPO: Enhancing Agent Reasoning via Pseudocode-style Planning Guided Preference Optimization [58.465778756331574]
本稿では,効果的なエージェント学習のためのPGPOと呼ばれる疑似コード型計画優先最適化手法を提案する。 2つの計画指向の報酬により、PGPOは、高品質なPコードプランを生成するLLMエージェントの能力をさらに強化する。実験により、PGPOは代表エージェントベンチマークよりも優れた性能を示し、現在のリードベースラインより優れていることが示された。
論文参考訳（メタデータ） (2025-06-02T09:35:07Z)
Co-PatcheR: Collaborative Software Patching with Component(s)-specific Small Reasoning Models [11.028140351377514]
Co-PatcheRは、個々のコンポーネントに対して、小さくて特殊な推論モデルを持つ最初の共同パッチシステムである。私たちの重要なテクニックは、特定のタスク設計とトレーニングのレシピです。 Co-PatcheR は SWE-bench-Verified で 3 x 14B モデルで 46% の解決率を達成した。
論文参考訳（メタデータ） (2025-05-25T02:58:30Z)
Parameter-Efficient Fine-Tuning with Attributed Patch Semantic Graph for Automated Patch Correctness Assessment [8.028183762381474]
自動プログラム修復(APR)は、人間の介入なしにプログラムエラーを自動的に修復することを目的としている。多くの研究がAPCA(Automatic patch correctness Assessment)に費やされている。
論文参考訳（メタデータ） (2025-05-05T13:15:53Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。 ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文参考訳（メタデータ） (2024-12-27T10:05:45Z)
Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文参考訳（メタデータ） (2024-12-18T04:14:35Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Parameter-Efficient Fine-Tuning of Large Language Models for Unit Test Generation: An Empirical Study [3.5189934649278922]
GitHub Copilotのような大規模言語モデル(LLM)は、微調整なしで現実世界のタスクに苦労する。本稿では,LoRA, (IA)3, およびプロンプトチューニングを含む各種PEFT法について検討する。その結果,PEFT法は単体テスト生成のための完全微調整に匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2024-11-04T09:03:18Z)
Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。 ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文参考訳（メタデータ） (2024-10-15T16:53:26Z)
BIPEFT: Budget-Guided Iterative Search for Parameter Efficient Fine-Tuning of Large Pretrained Language Models [63.52035708182815]
自動PEFT(BIPEFT)のための新しいBudget-Guided Iterative Search戦略を提案する。 BIPEFTはバイナリモジュールとランク次元検索空間をアンタングルするために,新たな反復探索方式を採用している。公開ベンチマークの大規模な実験は、パラメータ予算の低い下流タスクにおいて、BIPEFTの優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T18:50:46Z)
Hybrid Automated Program Repair by Combining Large Language Models and Program Analysis [12.7034916462208]
自動プログラム修復(APR)は、人間の開発者のバグ修正プロセスを合理化する可能性から、大きな注目を集めている。本稿ではGIANTREPAIRと呼ばれる革新的なAPR手法を紹介する。この知見に基づいて、GIANTREPAIRはまず、LLM生成したパッチからパッチスケルトンを構築して、パッチ空間を閉じ込め、その後、特定のプログラムに適した高品質なパッチを生成する。
論文参考訳（メタデータ） (2024-06-03T05:05:12Z)
AtP*: An efficient and scalable method for localizing LLM behaviour to components [6.47684348405662]
Attribution Patching (AtP) は高速勾配に基づく Activation Patching の近似である。本稿では,アクティベーションパッチの高速化のためのAtPと代替手法に関する最初の体系的研究について述べる。
論文参考訳（メタデータ） (2024-03-01T18:43:51Z)
Pruner: A Speculative Exploration Mechanism to Accelerate Tensor Program Tuning [9.730351520714699]
PrunerとMoA-Prunerは、ディープニューラルネットワークのプログラムチューニングを高速化するために提案されている。 Prunerは"Draft-then-Verify"パラダイムを用いて探索プロセスを高速化する投機的探索機構である。 MoA-PrunerがMomentum Online Adaptationを導入した。
論文参考訳（メタデータ） (2024-02-04T06:11:12Z)
Patch-CLIP: A Patch-Text Pre-Trained Model [6.838615442552715]
パッチ表現学習は、ソフトウェア生成における機械学習の機能を活用するために必要な研究の方向性として登場した。紹介する。 Theweak-CLIPは、パッチと自然言語テキストのための新しい事前トレーニングフレームワークである。私たちはそれを示します。 Theweak-CLIPは、新しい最先端のパフォーマンスを設定し、BLEU、ROUGE-L、METEOR、リコールといったメトリクスにおける最先端のパフォーマンスを一貫して上回る。
論文参考訳（メタデータ） (2023-10-19T14:00:19Z)
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。 Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。 PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文参考訳（メタデータ） (2023-05-03T20:11:22Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)
UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文参考訳（メタデータ） (2021-10-14T17:40:08Z)
Evaluating model-based planning and planner amortization for continuous control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文参考訳（メタデータ） (2021-10-07T12:00:40Z)
Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文参考訳（メタデータ） (2020-09-21T09:11:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。