論文の概要: A Systematic Study of LLM-Based Architectures for Automated Patching
- arxiv url: http://arxiv.org/abs/2603.01257v1
- Date: Sun, 01 Mar 2026 20:26:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.594088
- Title: A Systematic Study of LLM-Based Architectures for Automated Patching
- Title(参考訳): 自動パッチングのためのLCMアーキテクチャの体系的研究
- Authors: Qingxiao Xu, Ze Sheng, Zhicheng Chen, Jeff Huang,
- Abstract要約: 本研究では,4つの大規模言語モデル (LLM) に基づくパッチ処理パラダイムの制御評価を行う。
実際の脆弱性タスクにおけるパッチの正確性、障害モード、トークン使用量、実行時間を分析します。
固定は効率的だが脆く、単一エージェントシステムは柔軟性とコストのバランスを保ち、マルチエージェント設計はオーバーヘッドを大幅に上回るコストを犠牲にして改善される。
- 参考スコア(独自算出の注目度): 7.9821766277253845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown promise for automated patching, but their effectiveness depends strongly on how they are integrated into patching systems. While prior work explores prompting strategies and individual agent designs, the field lacks a systematic comparison of patching architectures. In this paper, we present a controlled evaluation of four LLM-based patching paradigms -- fixed workflow, single-agent system, multi-agent system, and general-purpose code agents -- using a unified benchmark and evaluation framework. We analyze patch correctness, failure modes, token usage, and execution time across real-world vulnerability tasks. Our results reveal clear architectural trade-offs: fixed workflows are efficient but brittle, single-agent systems balance flexibility and cost, and multi-agent designs improve generalization at the expense of substantially higher overhead and increased risk of reasoning drift on complex tasks. Surprisingly, general-purpose code agents achieve the strongest overall patching performance, benefiting from general-purpose tool interfaces that support effective adaptation across vulnerability types. Overall, we show that architectural design and iteration depth, rather than model capability alone, dominate the reliability and cost of LLM-based automated patching.
- Abstract(参考訳): 大規模言語モデル(LLM)は自動パッチを約束しているが、その有効性はパッチシステムへの統合方法に大きく依存する。
以前の研究は戦略と個々のエージェント設計の促進を探求するが、パッチアーキテクチャの体系的な比較は欠如している。
本稿では,統一ベンチマークと評価フレームワークを用いて,固定ワークフロー,単一エージェントシステム,マルチエージェントシステム,汎用コードエージェントの4つのLCMベースのパッチパラダイムの制御評価を行う。
実際の脆弱性タスクにおけるパッチの正確性、障害モード、トークン使用量、実行時間を分析します。
固定ワークフローは効率的だが不安定であり、単一エージェントシステムは柔軟性とコストのバランスを保ち、マルチエージェント設計は、オーバーヘッドを大幅に高め、複雑なタスクのドリフトを推論するリスクを増大させるため、一般化を改善する。
驚いたことに、汎用コードエージェントは、脆弱性タイプにまたがる効果的な適応をサポートする汎用ツールインターフェースの恩恵を受けながら、全体的なパッチ処理のパフォーマンスを最強に達成している。
全体として、モデル機能のみでなく、アーキテクチャ設計とイテレーションの深さが、LLMベースの自動パッチの信頼性とコストを支配していることを示す。
関連論文リスト
- Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。
複数の多様な実装設計を生成することで、線形パッチから切り離される。
NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文 参考訳(メタデータ) (2026-03-02T12:50:40Z) - NEMO: Execution-Aware Optimization Modeling via Autonomous Coding Agents [41.70615840873279]
本稿では,決定問題の自然言語記述を形式的に実行可能な数学的最適化実装に変換するシステムNEMOを提案する。
NEMOは、LLMとAPIベースのインタラクションに類似したファーストクラスの抽象化として扱われる、自律型コーディングエージェント(ACAs)とのリモートインタラクションに焦点を当てている。
ACAはサンドボックス環境で実行されるため、NEMOが生成したコードはビルドによって実行可能であり、自動検証と修復が可能である。
論文 参考訳(メタデータ) (2026-01-29T07:57:23Z) - Integrating Diverse Assignment Strategies into DETRs [61.61489761918158]
ラベル割り当ては、特にDETRスタイルのフレームワークにおいて、オブジェクト検出器において重要なコンポーネントである。
我々は,任意のDETR型検出器に多様な割り当て戦略をシームレスに統合する,フレキシブルで軽量なフレームワークであるLoRA-DETRを提案する。
論文 参考訳(メタデータ) (2026-01-14T07:28:54Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - JoyAgent-JDGenie: Technical Report on the GAIA [27.025464023889853]
大規模言語モデルは、複雑な現実世界のタスクのための自律的なエージェントとして、ますます多くデプロイされている。
本稿では,計画および実行エージェントを批判モデル投票と統合する汎用エージェントアーキテクチャ,作業層,意味層,手続き層にまたがる階層型メモリシステム,検索,コード実行,マルチモーダル解析のための洗練されたツールスイートを提案する。
論文 参考訳(メタデータ) (2025-10-01T04:41:58Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Experts [28.9807389592324]
機械学習のワークフローを自動化するための有望なソリューションとして、大規模言語モデル(LLM)エージェントが登場した。
LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを紹介します。
実際のトレーニングフィードバックに基づいて個々のコンポーネントを体系的に更新することにより、イテレーティブリファインメントはモデル全体のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-02-25T01:52:37Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - An Empirical Study on LLM-based Agents for Automated Bug Fixing [8.660251517380779]
大規模な言語モデル (LLM) と LLM ベースのエージェントが自動的にバグを修正するために適用されている。
自動バグ修正のためのSWE-bench Verifiedベンチマークにおいて,6つの修復システムについて検討した。
論文 参考訳(メタデータ) (2024-11-15T14:19:15Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。