論文の概要: Co-PatcheR: Collaborative Software Patching with Component(s)-specific Small Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.18955v1
- Date: Sun, 25 May 2025 02:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.778558
- Title: Co-PatcheR: Collaborative Software Patching with Component(s)-specific Small Reasoning Models
- Title(参考訳): Co-PatcheR:コンポーネント固有の小さな推論モデルによる協調的ソフトウェアパッチ
- Authors: Yuheng Tang, Hongwei Li, Kaijie Zhu, Michael Yang, Yangruibo Ding, Wenbo Guo,
- Abstract要約: Co-PatcheRは、個々のコンポーネントに対して、小さくて特殊な推論モデルを持つ最初の共同パッチシステムである。
私たちの重要なテクニックは、特定のタスク設計とトレーニングのレシピです。
Co-PatcheR は SWE-bench-Verified で 3 x 14B モデルで 46% の解決率を達成した。
- 参考スコア(独自算出の注目度): 11.028140351377514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the success of general-purpose large language models (LLMs) in software patching, recent works started to train specialized patching models. Most works trained one model to handle the end-to-end patching pipeline (including issue localization, patch generation, and patch validation). However, it is hard for a small model to handle all tasks, as different sub-tasks have different workflows and require different expertise. As such, by using a 70 billion model, SOTA methods can only reach up to 41% resolved rate on SWE-bench-Verified. Motivated by the collaborative nature, we propose Co-PatcheR, the first collaborative patching system with small and specialized reasoning models for individual components. Our key technique novelties are the specific task designs and training recipes. First, we train a model for localization and patch generation. Our localization pinpoints the suspicious lines through a two-step procedure, and our generation combines patch generation and critique. We then propose a hybrid patch validation that includes two models for crafting issue-reproducing test cases with and without assertions and judging patch correctness, followed by a majority vote-based patch selection. Through extensive evaluation, we show that Co-PatcheR achieves 46% resolved rate on SWE-bench-Verified with only 3 x 14B models. This makes Co-PatcheR the best patcher with specialized models, requiring the least training resources and the smallest models. We conduct a comprehensive ablation study to validate our recipes, as well as our choice of training data number, model size, and testing-phase scaling strategy.
- Abstract(参考訳): ソフトウェアパッチングにおける汎用大規模言語モデル(LLM)の成功に触発された最近の研究は、特殊なパッチ付けモデルを訓練し始めた。
ほとんどの作業では、エンドツーエンドのパッチパイプライン(イシューローカライゼーション、パッチ生成、パッチ検証を含む)を扱うために、1つのモデルをトレーニングしました。
しかし、異なるサブタスクが異なるワークフローを持ち、異なる専門知識を必要とするため、小さなモデルですべてのタスクを処理するのは難しい。
したがって、700億モデルを使用することで、SOTA法はSWE-bench-Verified上で最大41%の解決率にしか到達できない。
コラボレーティブな性質を生かしたCo-PatcheRを提案する。
私たちの重要なテクニックは、特定のタスク設計とトレーニングのレシピです。
まず、ローカライズとパッチ生成のためのモデルをトレーニングする。
我々のローカライゼーションは、不審な線を2段階の手順で特定し、我々の世代はパッチ生成と批判を組み合わせる。
次に、アサーションなしで問題再現テストケースを作成し、パッチの正当性を判断する2つのモデルと、多数決ベースのパッチ選択を含むハイブリッドパッチ検証を提案する。
広範に評価した結果,Co-PatcheR は SWE-bench-Verified で 3 × 14B モデルで 46% の解決率を達成した。
これによりCo-PatcheRは、トレーニングリソースが最小で、最小のモデルを必要とする特殊なモデルで最高のパッチバーとなる。
レシピを検証し、トレーニングデータ数、モデルサイズ、テストフェーズスケーリング戦略を選択するために、包括的なアブレーション研究を行います。
関連論文リスト
- PatchPilot: A Cost-Efficient Software Engineering Agent with Early Attempts on Formal Verification [13.582585807306]
パッチの有効性,安定性,コスト効率のバランスをとるエージェントパッチであるPatchPilotを提案する。
PatchPilotは、コスト(インスタンスあたり1ドル未満)を維持し、より高い安定性を確保しながら、既存のオープンソースメソッドよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-02-04T22:30:02Z) - Why Train Everything? Tint a Single Layer for Multi-task Model Merging [17.496018757317824]
モデルマージは独立して微調整されたモデルを単一のマルチタスクモデルに統合し、ジョイントトレーニングの柔軟な代替手段を提供する。
多くの既存のモデルマージ手法は、追加のタスク固有のコンポーネントを導入し、複雑さを増し、追加の修正を必要とする。
単一のレイヤだけを更新することで、モデルマージを改善する軽量かつ高効率なアプローチであるModel Tintingを提案する。
論文 参考訳(メタデータ) (2024-12-26T07:42:06Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Consecutive Batch Model Editing with HooK Layers [59.673084839708224]
CoachHooKは、シーケンシャルおよびバッチ編集を同時にサポートするモデル編集方法である。
メモリフレンドリで、時間とともにサイズが変化しないいくつかのフック層を格納するために、少量しか必要としない。
論文 参考訳(メタデータ) (2024-03-08T14:07:44Z) - PatchAD: A Lightweight Patch-based MLP-Mixer for Time Series Anomaly Detection [11.236001767352676]
時系列解析における異常検出は重要な課題であるが、ラベル不足シナリオにおける正常パターンと異常パターンを識別することが課題となっている。
我々は,表現抽出と異常検出にコントラスト学習を利用する新しいマルチスケールパッチベースのMixerアーキテクチャであるPatchADを提案する。
論文 参考訳(メタデータ) (2024-01-18T08:26:33Z) - Towards Reliable AI Model Deployments: Multiple Input Mixup for
Out-of-Distribution Detection [4.985768723667418]
本稿では,OOD(Out-of-Distribution)検出問題の解法を提案する。
本手法は, 単一エポック微調整によるOOD検出性能の向上に有効である。
我々の方法は、ゼロからモデルを訓練する必要がなく、簡単に分類器にアタッチできる。
論文 参考訳(メタデータ) (2023-12-24T15:31:51Z) - ZipIt! Merging Models from Different Tasks without Training [20.2479633507354]
ZipIt!」は、同じアーキテクチャの2つの任意のモデルをマージする一般的な方法である。
これら2つの変更が組み合わさって、以前の作業よりも20~60%改善されていることが分かりました。
論文 参考訳(メタデータ) (2023-05-04T17:59:58Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Towards Total Recall in Industrial Anomaly Detection [38.4839780454375]
画像中の欠陥部分の発見問題を解決するために,PatchCoreを提案する。
PatchCoreは、検出とローカライゼーションの両方で最先端のパフォーマンスを達成しながら、競合する推論時間を提供します。
標準データセットMVTec ADでは、PatchCoreはイメージレベルの異常検出AUROCスコアを99.1%で達成している。
論文 参考訳(メタデータ) (2021-06-15T16:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。