論文の概要: Runtime-Structured Task Decomposition for Agentic Coding Systems
- arxiv url: http://arxiv.org/abs/2605.15425v1
- Date: Thu, 14 May 2026 21:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.109981
- Title: Runtime-Structured Task Decomposition for Agentic Coding Systems
- Title(参考訳): エージェント符号化システムにおける実行時構造化タスク分解
- Authors: Shubhi Asthana, Bing Zhang, Chad DeLuca, Hima Patel, Ruchi Mahindru,
- Abstract要約: エージェントコーディングシステムは、ソフトウェア工学のタスクに大規模言語モデル(LLM)をますます利用している。
多くの既存のシステムは、タスクロジック、実行フロー、モノリシックプロンプト内の出力生成をエンコードしている。
本稿では,実行可能制御ロジックを通じてタスク分割と実行フローを管理するアーキテクチャアプローチである実行時構造化タスク分解を提案する。
- 参考スコア(独自算出の注目度): 6.564077060960638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic coding systems increasingly use large language models (LLMs) for software engineering tasks such as debugging, root cause analysis, and code review. However, many existing systems encode task logic, execution flow, and output generation inside monolithic prompts. This design creates brittle behavior, limited debuggability, and high retry costs because failures often require rerunning the full workflow. We present runtime-structured task decomposition, an architectural approach in which task partitioning and execution flow are managed through executable control logic rather than prompt structure alone. LLMs are used only for focused judgment tasks, and outputs are validated against predefined schemas before downstream execution. We evaluate this approach on two software engineering workloads using three configurations: monolithic execution, static decomposition with fixed subtasks and no runtime branching, and runtime-structured decomposition. Each configuration was evaluated across 10 runs. Our results show that decomposition alone does not necessarily reduce retry cost. In the Kubernetes root cause analysis workload, the static decomposition baseline produced a retry cost of 1,632 +/- 145 tokens versus 904 +/- 17 tokens for the monolithic baseline because failures forced reruns of downstream subtasks. A similar pattern appeared in the multi-file debugging workload, where the static baseline consumed 933 tokens compared to 703 tokens for the monolithic system. The runtime-structured approach reran only failed subtasks, reducing retry costs to 436 +/- 132 tokens for root cause analysis and 460 tokens for debugging. Overall, the approach achieved up to 51.7% lower retry cost than monolithic systems and 73.2% lower retry cost than static decomposition baselines, improving efficiency, debuggability, and operational reliability in agentic coding systems.
- Abstract(参考訳): エージェントコーディングシステムは、デバッグ、根本原因分析、コードレビューなどのソフトウェアエンジニアリングタスクに、より大きな言語モデル(LLM)をますます利用している。
しかし、既存のシステムの多くは、モノリシックなプロンプト内でのタスクロジック、実行フロー、出力生成をエンコードしている。
この設計では、不安定な振る舞い、デバッグ可能性の制限、リトライコストが高くなります。
本稿では,タスク分割と実行フローを,プロンプト構造のみでなく実行可能な制御ロジックによって管理するアーキテクチャ手法である実行時構造化タスク分解を提案する。
LLMは集中判断タスクにのみ使用され、出力はダウンストリーム実行前に事前に定義されたスキーマに対して検証される。
このアプローチを、モノリシックな実行、固定サブタスクによる静的な分解、ランタイムブランチなし、ランタイム構造化された分解の3つの構成を用いて、2つのソフトウェアエンジニアリングワークロード上で評価する。
それぞれの構成は10ランで評価された。
以上の結果から,分解だけでは再試行コストを低減できないことが明らかとなった。
Kubernetesのルート原因分析ワークロードでは、静的分解ベースラインは、ダウンストリームサブタスクの再実行を余儀なくされたため、モノリシックベースラインのリトライコストが1,632 +/-145、モノリシックベースラインが904 +/-17だった。
同様のパターンがマルチファイルデバッグのワークロードに現れ、静的ベースラインは、モノリシックシステム用の703トークンと比較して、933トークンを消費した。
実行時に構造化されたアプローチであるreranはサブタスクにのみ失敗し、リトライコストをルート原因分析の436+/-132トークン、デバッグの460トークンに削減した。
全体として、モノリシックシステムよりも51.7%のリトライコスト、静的分解ベースラインよりも73.2%のリトライコスト、効率の改善、デバッグ性、エージェントプログラミングシステムの運用信頼性を実現した。
関連論文リスト
- Towards Multi-Agent Autonomous Reasoning in Hydrodynamics [0.06999740786886537]
本稿では,多エージェントをレイヤ実行グラフ(LEG)を介して協調させる,流体力学のためのマルチエージェントシステム(MAS)のプロトタイプを提案する。
プランナーエージェントは、ドメイン知識を厳密な制御ロジックとしてハードコーディングすることなく、自然言語ルーティングからクエリ固有の実行トポロジを構築する。
レポーターエージェントが最終応答を合成し、ランタイムが監査性をサポートするためのツール呼び出し毎に証明をログする。
論文 参考訳(メタデータ) (2026-05-01T21:17:55Z) - Why Search When You Can Transfer? Amortized Agentic Workflow Design from Structural Priors [51.95306551061392]
エージェントワークフローの自動設計は、現在、タスクごとの反復検索に依存している。
本稿では,ワークフロー設計を再利用可能な構造的先入観に補正するフレームワークであるSWIFTを提案する。
SWIFTは5つのベンチマークで最先端の検索手法より優れている。
論文 参考訳(メタデータ) (2026-04-27T21:25:00Z) - Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate [8.424102114588559]
自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
論文 参考訳(メタデータ) (2026-04-03T02:23:25Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - Automating Computational Reproducibility in Social Science: Comparing Prompt-Based and Agent-Based Approaches [0.3637090866781549]
計算研究の再現は、提供されたデータで元のコードを再実行するのと同じくらい単純であるとしばしば考えられている。
本研究では,大規模な言語モデルとAIエージェントが,そのような障害の診断と修復を自動化できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-09T11:59:59Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。