論文の概要: Constraint Decay: The Fragility of LLM Agents in Backend Code Generation
- arxiv url: http://arxiv.org/abs/2605.06445v1
- Date: Thu, 07 May 2026 15:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.953151
- Title: Constraint Decay: The Fragility of LLM Agents in Backend Code Generation
- Title(参考訳): 制約緩和 - バックエンドコード生成におけるLLMエージェントの脆弱性
- Authors: Francesco Dente, Dario Satriani, Paolo Papotti,
- Abstract要約: 大きな言語モデル(LLM)エージェントは、緩やかな仕様の下で、自律的なコード生成において強力なパフォーマンスを示す。
プロダクショングレードのソフトウェアは、アーキテクチャパターンやデータベース、オブジェクト-リレーショナルマッピングといった構造的制約に厳格に固執する必要がある。
本稿では,バックエンド生成における構造的制約を適切に扱えるかを評価する。
- 参考スコア(独自算出の注目度): 9.659020624935687
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Model (LLM) agents demonstrate strong performance in autonomous code generation under loose specifications. However, production-grade software requires strict adherence to structural constraints, such as architectural patterns, databases, and object-relational mappings. Existing benchmarks often overlook these non-functional requirements, rewarding functionally correct but structurally arbitrary solutions. We present a systematic study evaluating how well agents handle structural constraints in multi-file backend generation. By fixing a unified API contract across 80 greenfield generation tasks and 20 feature-implementation tasks spanning eight web frameworks, we isolate the effect of structural complexity using a dual evaluation with end-to-end behavioral tests and static verifiers. Our findings reveal a phenomenon of constraint decay: as structural requirements accumulate, agent performance exhibits a substantial decline. Capable configurations lose 30 points on average in assertion pass rates from baseline to fully specified tasks, while some weaker configurations approach zero. Framework sensitivity analysis exposes significant performance disparities: agents succeed in minimal, explicit frameworks (e.g., Flask) but perform substantially worse on average in convention-heavy environments (e.g., FastAPI, Django). Finally, error analysis identifies data-layer defects (e.g., incorrect query composition and ORM runtime violations) as the leading root causes. This work highlights that jointly satisfying functional and structural requirements remains a key open challenge for coding agents.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントは、緩やかな仕様の下で、自律的なコード生成において強力なパフォーマンスを示す。
しかし、プロダクショングレードのソフトウェアは、アーキテクチャパターンやデータベース、オブジェクト-リレーショナルマッピングといった構造的制約に厳格に固執する必要がある。
既存のベンチマークはしばしばこれらの非機能要件を見落とし、機能的には正しいが構造的には任意な解決策に報いる。
マルチファイルバックエンド生成において,エージェントが構造的制約をどのようにうまく扱えるかを評価する。
80のグリーンフィールド生成タスクと8つのWebフレームワークにまたがる機能実装タスク20の統一APIコントラクトを固定することにより、エンド・ツー・エンドの動作テストと静的検証による二重評価を用いて、構造的複雑さの影響を分離する。
構造的要求が蓄積されるにつれて, エージェント性能は著しく低下する。
容量構成は、アサーションパスレートがベースラインから完全に指定されたタスクに平均30ポイント低下する一方、いくつかの弱い設定はゼロに近づいた。
エージェントは最小限の明示的なフレームワーク(例えば、Frask)で成功するが、コンベンションの多い環境(例えば、FastAPI、Django)では、平均的にかなりパフォーマンスが悪くなる。
最後に、エラー解析は、データ層欠陥(例えば、不正なクエリ合成とORMランタイム違反)を主要な原因として特定する。
この研究は、機能的および構造的要求を共同で満たすことが、コーディングエージェントにとって重要な課題であることを強調している。
関連論文リスト
- LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - TopoPilot: Reliable Conversational Workflow Automation for Topological Data Analysis and Visualization [4.62716665682001]
TopoPilotは、複雑な科学的視覚化を自動化するための信頼性が高くエージェント的なフレームワークである。
TopoPilotは、信頼性の高い運用を保証するために、系統的なガードレールと検証メカニズムを組み込んでいる。
評価では、TopoPilotは99%以上の成功率を達成したが、ベースラインでは50%以下で、包括的なガードレールやチェックがない。
論文 参考訳(メタデータ) (2026-03-26T05:56:53Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - CCTU: A Benchmark for Tool Use under Complex Constraints [66.87622847854337]
複雑な制約下での大規模言語モデル(LLM)を評価するためのベンチマークであるCCTUを紹介する。
ベンチマークは、さまざまなツール使用シナリオに対して、慎重にキュレートされ、挑戦的なテストケースが200から成っている。
ステップレベルの検証を行い、コンプライアンスを強制する実行可能な制約検証モジュールを開発する。
論文 参考訳(メタデータ) (2026-03-16T14:05:13Z) - Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。
複数の多様な実装設計を生成することで、線形パッチから切り離される。
NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文 参考訳(メタデータ) (2026-03-02T12:50:40Z) - Data Dependency-Aware Code Generation from Enhanced UML Sequence Diagrams [54.528185120850274]
本稿では,API2Depという新しいステップバイステップコード生成フレームワークを提案する。
まず、サービス指向アーキテクチャに適した拡張Unified Modeling Language (UML) APIダイアグラムを紹介します。
次に、データフローの重要な役割を認識し、専用のデータ依存推論タスクを導入する。
論文 参考訳(メタデータ) (2025-08-05T12:28:23Z) - A Large Language Model-Empowered Agent for Reliable and Robust Structural Analysis [14.754785659805869]
大規模言語モデル(LLM)は、様々なオープンドメインタスクにまたがる顕著な能力を示してきたが、土木工学のような専門分野への応用は、いまだに未解明のままである。
本稿では, ビーム構造解析におけるLCMの信頼性とロバスト性を評価することによって, このギャップを埋める。
実験の結果, エージェントはベンチマークデータセット上で99.0%を超える精度を達成し, 多様な条件で信頼性と堅牢性を示すことがわかった。
論文 参考訳(メタデータ) (2025-06-27T04:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。