論文の概要: From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents
- arxiv url: http://arxiv.org/abs/2605.21996v1
- Date: Thu, 21 May 2026 04:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.09568
- Title: From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents
- Title(参考訳): パッチからトラジェクトリへ - ソフトウェアエンジニアリングエージェントのための原始的なプロセススーパービジョン
- Authors: Murong Ma, Tianyu Chen, Yun Lin, Shuai Lu, Qinglin Zhu, Yeyun Gong, Zhiyong Huang, Peng Cheng, Yan Lu, Jin Song Dong,
- Abstract要約: 教師の長い軌道上の監督された微調整(SFT)は、オープンソフトウェアエンジニアリング(SWE)エージェントに調査と推論を浸透させる主要な方法である。
本稿では,P2T (Patches-to-Trajectories) を提案する。P2T (Patches-to-Trajectories) は,P2T (Patches-to-Trajectories) において,P2T (Patches-to-Trajectories) とP2T (Patches-to-Trajectories) の2つの最適化法である。
- 参考スコア(独自算出の注目度): 56.31499185764872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) on long teacher trajectories is the dominant way to instill investigation and reasoning in open software-engineering (SWE) agents. Since every retained response becomes an imitation target, the student inherits the final outcome and intermediate flaws, including ungrounded leaps and redundant loops. High-quality training data must be effective(each step is grounded and narrows the agent's epistemic gap to the correct fix) and efficient(each step is information-bearing rather than redundant or looping). Existing recipes filter or relabel teacher rollouts using only a binary terminal verifier, which does not directly target these axes and provides no supervision on instances where the teacher fails. Most real issue includes a developer-authored reference patch, $p^\star$, revealing the file paths, runtime behaviors, and coding conventions presupposed by the correct fix, yet standard pipelines discard it. We propose Patches-to-Trajectories (P2T), which uses $p^\star$ as privileged information during curation and formulates trajectory construction as bi-objective optimization over per-step effectiveness and trajectory length. A reverse phase distills $p^\star$ into a latent process graph, $G^\star$, of contextual facts and solution milestones. A forward phase curates trajectories from blinded teacher continuations by scoring per-step progress against $G^\star$ under a leakage-blocking groundedness check and retaining the shortest effective segments. Using only 1.8k curated SWE-Gym instances, P2T improves effectiveness and efficiency over outcome-filtered SFT and its tool-error-masking variant. On SWE-bench Verified, it raises Pass@1 by up to 10.8 points while reducing per-instance inference cost by ~15%, with consistent gains on SWE-bench Lite. Size-matched ablations and qualitative analysis further isolate trajectory quality from data scale.
- Abstract(参考訳): 教師の長い軌道上の監督された微調整(SFT)は、オープンソフトウェアエンジニアリング(SWE)エージェントに調査と推論を浸透させる主要な方法である。
保持された全ての応答が模倣対象となるため、学生は未踏の跳躍や冗長ループを含む最終結果と中間欠陥を継承する。
高品質なトレーニングデータは効果的でなければならない(各ステップは接地され、エージェントの疫学的なギャップを正しい修正に絞り込む)。
既存のレシピは、バイナリ端末検証器のみを使用して、これらの軸を直接対象とせず、教師が失敗するインスタンスの監視を提供していない。
実際の問題としては、開発者が承認した参照パッチである$p^\star$があり、ファイルパス、実行時の振る舞い、正しい修正によって想定されるコーディング規約を明らかにするが、標準的なパイプラインはそれを破棄する。
P2T(Patches-to-Trajectories)を提案する。P2T(Patches-to-Trajectories)は、P2T(Patches-to-Trajectories)で、P2T(Patches-to-Trajectories)は、P2T(Patches-to-Trajectories)の略。
逆相は、文脈事実と解のマイルストーンの潜在過程グラフである$G^\star$に$p^\star$を蒸留する。
前フェーズは、リーク遮断接地チェックの下でステップごとの進歩をG^\star$に対してスコアし、最も短い有効セグメントを保持することにより、盲目教師の継続からの軌道を硬化させる。
1.8kのSWE-Gymインスタンスのみを使用して、P2Tは結果フィルタリングSFTとそのツールエラーマスキングのバリエーションよりも効率と効率を向上させる。
SWE-bench Verifiedでは、Pass@1を最大10.8ポイント引き上げ、インスタンスごとの推論コストを15%削減し、SWE-bench Liteで一貫した利得を得る。
サイズマッチングによる短縮と定性的分析により、データスケールから軌道品質をさらに分離する。
関連論文リスト
- ClawTrace: Cost-Aware Tracing for LLM Agent Skill Distillation [9.992155237142306]
ClawTraceは、エージェントセッション中にすべてのLCMコール、ツール使用、サブエージェントスレーブを記録するエージェントトレースプラットフォームである。
CostCraftは、TraceCardsを読み出し、3種類のスキルパッチを生成する蒸留パイプラインである。
コスト属性とプルーパッチの両方が独立に品質の低下を減少させることを示す。
論文 参考訳(メタデータ) (2026-04-26T19:44:10Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Pruner: A Draft-then-Verify Exploration Mechanism to Accelerate Tensor Program Tuning [11.139231636612479]
プログラムチューニングを高速化するために,Pruner と MoA-Pruner を提案する。
Prunerはスケジュール探索を高速化する"Draft-then-Verify"探索メカニズムである。
MoA-Prunerは、クロスプラットフォームのオンライン無意識に対処するためのMomentumオンライン適応戦略を導入した。
論文 参考訳(メタデータ) (2024-02-04T06:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。