論文の概要: Deployability-Centric Infrastructure-as-Code Generation: An LLM-based Iterative Framework
- arxiv url: http://arxiv.org/abs/2506.05623v1
- Date: Thu, 05 Jun 2025 22:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.255057
- Title: Deployability-Centric Infrastructure-as-Code Generation: An LLM-based Iterative Framework
- Title(参考訳): デプロイ可能性中心のインフラストラクチャ・アズ・コード生成: LLMベースの反復フレームワーク
- Authors: Tianyi Zhang, Shidong Pan, Zejun Zhang, Zhenchang Xing, Xiaoyu Sun,
- Abstract要約: インフラストラクチャ・アズ・コード(IaC)の生成は、クラウドインフラストラクチャのプロビジョニングを自動化する上で大きな約束を持っています。
大規模言語モデル(LLM)の最近の進歩は、IaC開発を民主化する有望な機会を提供する。
最近の評価では、IaCテンプレートユーティリティの致命的な測定であるデプロイ可能性を無視しながら、構文的正しさに焦点を当てている。
IaCテンプレートを生成するために反復フィードバック機構を使用するLCMベースのデプロイ性中心のフレームワークであるIaCGenと、デプロイ性中心のIaCテンプレートベンチマークであるDPIaC-Evalである。
- 参考スコア(独自算出の注目度): 19.710477636179426
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Infrastructure-as-Code (IaC) generation holds significant promise for automating cloud infrastructure provisioning. Recent advances in Large Language Models (LLMs) present a promising opportunity to democratize IaC development by generating deployable infrastructure templates from natural language descriptions, but current evaluation focuses on syntactic correctness while ignoring deployability, the fatal measure of IaC template utility. We address this gap through two contributions: (1) IaCGen, an LLM-based deployability-centric framework that uses iterative feedback mechanism to generate IaC templates, and (2) DPIaC-Eval, a deployability-centric IaC template benchmark consists of 153 real-world scenarios that can evaluate syntax, deployment, user intent, and security. Our evaluation reveals that state-of-the-art LLMs initially performed poorly, with Claude-3.5 and Claude-3.7 achieving only 30.2% and 26.8% deployment success on the first attempt respectively. However, IaCGen transforms this performance dramatically: all evaluated models reach over 90% passItr@25, with Claude-3.5 and Claude-3.7 achieving 98% success rate. Despite these improvements, critical challenges remain in user intent alignment (25.2% accuracy) and security compliance (8.4% pass rate), highlighting areas requiring continued research. Our work provides the first comprehensive assessment of deployability-centric IaC template generation and establishes a foundation for future research.
- Abstract(参考訳): インフラストラクチャ・アズ・コード(IaC)の生成は、クラウドインフラストラクチャのプロビジョニングを自動化する上で大きな約束を持っています。
大規模言語モデル(LLM)の最近の進歩は、自然言語記述からデプロイ可能なインフラストラクチャテンプレートを生成することで、IaC開発を民主化する有望な機会を提供するが、現在の評価は、IaCテンプレートユーティリティの致命的な測定であるデプロイ可能性を無視しながら、構文的正しさに重点を置いている。
IaCテンプレートを生成するために反復的なフィードバック機構を使用するLCMベースのデプロイ性中心のフレームワークであるIaCGenと、デプロイ性中心のIaCテンプレートベンチマークであるDPIaC-Evalは、構文、デプロイメント、ユーザ意図、セキュリティを評価可能な153の現実シナリオで構成されている。
我々の評価では、最先端のLLMは最初は性能が悪く、Claude-3.5とClaude-3.7は、それぞれ最初の試みで30.2%と26.8%しか成功していない。
しかし、IaCGenはこの性能を劇的に変換し、評価されたモデルは全て90%パスItr@25に達し、Claude-3.5とClaude-3.7は98%の成功率を達成した。
これらの改善にもかかわらず、ユーザー意図の整合性(25.2%の精度)とセキュリティコンプライアンス(8.4%のパスレート)が重要な課題であり、継続的な研究を必要とする領域を強調している。
我々の研究は、デプロイ可能性中心のIaCテンプレート生成に関する最初の包括的な評価を提供し、将来の研究の基盤を確立します。
関連論文リスト
- CRPE: Expanding The Reasoning Capability of Large Language Model for Code Generation [5.63821063617385]
CRPE(Code Reasoning Process Enhancer)は、データ合成とモデルトレーニングのためのフレームワークである。
我々は,コード生成タスクの大幅な改善を示す拡張COTコーダを開発した。
Qwen2.5-Coder-32B-BaseをベースとしたCOT-Coder-32B-StepDPOは,パス@1精度35.08で優れた性能を示し,ベンチマークではGPT4Oを上回った。
論文 参考訳(メタデータ) (2025-05-15T08:13:45Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Forecasting Frontier Language Model Agent Capabilities [0.7499722271664147]
言語モデル(LM)の下流能力を予測する6つの予測手法を評価する。
計算やモデルリリース日などの入力メトリクスからベンチマークスコアを直接予測する"ワンステップ"アプローチや、クロスベンチマークパフォーマンス(PC-1)や人間による競争力のあるElo評価といった中間メトリックを最初に予測する"ツーステップ"アプローチを採用しています。
当社の予測では,2026年初めまでに,能力の低い非特殊化LMエージェントがSWE-Bench Verifiedで54%,最先端LMエージェントが87%の成功率に達すると予測されている。
論文 参考訳(メタデータ) (2025-02-21T02:34:17Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Probabilistic Consensus through Ensemble Validation: A Framework for LLM Reliability [0.0]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩を示しているが、自律的なデプロイメントに必要な信頼性を欠いていることが多い。
本稿では,モデルコンセンサスを通じて,コンテンツ検証のためのアンサンブル手法を再利用する新しいフレームワークを提案する。
事実の精度と因果一貫性を必要とする78症例を対象としたテストでは, 精度が73.1%から93.9%に向上した。
論文 参考訳(メタデータ) (2024-11-10T17:32:16Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。