Fugu-MT 論文翻訳(概要): Deployability-Centric Infrastructure-as-Code Generation: An LLM-based Iterative Framework

論文の概要: Deployability-Centric Infrastructure-as-Code Generation: An LLM-based Iterative Framework

arxiv url: http://arxiv.org/abs/2506.05623v1
Date: Thu, 05 Jun 2025 22:53:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:43.255057
Title: Deployability-Centric Infrastructure-as-Code Generation: An LLM-based Iterative Framework
Title（参考訳）: デプロイ可能性中心のインフラストラクチャ・アズ・コード生成: LLMベースの反復フレームワーク
Authors: Tianyi Zhang, Shidong Pan, Zejun Zhang, Zhenchang Xing, Xiaoyu Sun,
Abstract要約: インフラストラクチャ・アズ・コード(IaC)の生成は、クラウドインフラストラクチャのプロビジョニングを自動化する上で大きな約束を持っています。大規模言語モデル(LLM)の最近の進歩は、IaC開発を民主化する有望な機会を提供する。最近の評価では、IaCテンプレートユーティリティの致命的な測定であるデプロイ可能性を無視しながら、構文的正しさに焦点を当てている。 IaCテンプレートを生成するために反復フィードバック機構を使用するLCMベースのデプロイ性中心のフレームワークであるIaCGenと、デプロイ性中心のIaCテンプレートベンチマークであるDPIaC-Evalである。
参考スコア（独自算出の注目度）: 19.710477636179426
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Infrastructure-as-Code (IaC) generation holds significant promise for automating cloud infrastructure provisioning. Recent advances in Large Language Models (LLMs) present a promising opportunity to democratize IaC development by generating deployable infrastructure templates from natural language descriptions, but current evaluation focuses on syntactic correctness while ignoring deployability, the fatal measure of IaC template utility. We address this gap through two contributions: (1) IaCGen, an LLM-based deployability-centric framework that uses iterative feedback mechanism to generate IaC templates, and (2) DPIaC-Eval, a deployability-centric IaC template benchmark consists of 153 real-world scenarios that can evaluate syntax, deployment, user intent, and security. Our evaluation reveals that state-of-the-art LLMs initially performed poorly, with Claude-3.5 and Claude-3.7 achieving only 30.2% and 26.8% deployment success on the first attempt respectively. However, IaCGen transforms this performance dramatically: all evaluated models reach over 90% passItr@25, with Claude-3.5 and Claude-3.7 achieving 98% success rate. Despite these improvements, critical challenges remain in user intent alignment (25.2% accuracy) and security compliance (8.4% pass rate), highlighting areas requiring continued research. Our work provides the first comprehensive assessment of deployability-centric IaC template generation and establishes a foundation for future research.
Abstract（参考訳）: インフラストラクチャ・アズ・コード(IaC)の生成は、クラウドインフラストラクチャのプロビジョニングを自動化する上で大きな約束を持っています。大規模言語モデル(LLM)の最近の進歩は、自然言語記述からデプロイ可能なインフラストラクチャテンプレートを生成することで、IaC開発を民主化する有望な機会を提供するが、現在の評価は、IaCテンプレートユーティリティの致命的な測定であるデプロイ可能性を無視しながら、構文的正しさに重点を置いている。 IaCテンプレートを生成するために反復的なフィードバック機構を使用するLCMベースのデプロイ性中心のフレームワークであるIaCGenと、デプロイ性中心のIaCテンプレートベンチマークであるDPIaC-Evalは、構文、デプロイメント、ユーザ意図、セキュリティを評価可能な153の現実シナリオで構成されている。我々の評価では、最先端のLLMは最初は性能が悪く、Claude-3.5とClaude-3.7は、それぞれ最初の試みで30.2%と26.8%しか成功していない。しかし、IaCGenはこの性能を劇的に変換し、評価されたモデルは全て90%パスItr@25に達し、Claude-3.5とClaude-3.7は98%の成功率を達成した。これらの改善にもかかわらず、ユーザー意図の整合性(25.2%の精度)とセキュリティコンプライアンス(8.4%のパスレート)が重要な課題であり、継続的な研究を必要とする領域を強調している。我々の研究は、デプロイ可能性中心のIaCテンプレート生成に関する最初の包括的な評価を提供し、将来の研究の基盤を確立します。

関連論文リスト

LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。 LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。 LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文参考訳（メタデータ） (2025-08-07T14:46:30Z)
Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文参考訳（メタデータ） (2025-07-25T10:34:51Z)
CCISolver: End-to-End Detection and Repair of Method-Level Code-Comment Inconsistency [33.30328162446649]
CCI(Code-comment Inconsistency)は、ソフトウェア開発、テスト、メンテナンスに悪影響を及ぼす可能性がある。我々は,CCIの識別と修正によるコード品質の向上を目的とした,革新的なエンドツーエンドフレームワークであるCCIBenchを提案する。
論文参考訳（メタデータ） (2025-06-25T15:56:07Z)
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:39:02Z)
CRPE: Expanding The Reasoning Capability of Large Language Model for Code Generation [5.63821063617385]
CRPE(Code Reasoning Process Enhancer)は、データ合成とモデルトレーニングのためのフレームワークである。我々は,コード生成タスクの大幅な改善を示す拡張COTコーダを開発した。 Qwen2.5-Coder-32B-BaseをベースとしたCOT-Coder-32B-StepDPOは,パス@1精度35.08で優れた性能を示し,ベンチマークではGPT4Oを上回った。
論文参考訳（メタデータ） (2025-05-15T08:13:45Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
Forecasting Frontier Language Model Agent Capabilities [0.7499722271664147]
言語モデル(LM)の下流能力を予測する6つの予測手法を評価する。計算やモデルリリース日などの入力メトリクスからベンチマークスコアを直接予測する"ワンステップ"アプローチや、クロスベンチマークパフォーマンス(PC-1)や人間による競争力のあるElo評価といった中間メトリックを最初に予測する"ツーステップ"アプローチを採用しています。当社の予測では,2026年初めまでに,能力の低い非特殊化LMエージェントがSWE-Bench Verifiedで54%,最先端LMエージェントが87%の成功率に達すると予測されている。
論文参考訳（メタデータ） (2025-02-21T02:34:17Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
Probabilistic Consensus through Ensemble Validation: A Framework for LLM Reliability [0.0]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩を示しているが、自律的なデプロイメントに必要な信頼性を欠いていることが多い。本稿では,モデルコンセンサスを通じて,コンテンツ検証のためのアンサンブル手法を再利用する新しいフレームワークを提案する。事実の精度と因果一貫性を必要とする78症例を対象としたテストでは, 精度が73.1%から93.9%に向上した。
論文参考訳（メタデータ） (2024-11-10T17:32:16Z)
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。 GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文参考訳（メタデータ） (2023-12-28T15:49:43Z)
Cumulative Reasoning with Large Language Models [12.267474250936123]
Cumulative Reasoning (CR)は、大規模言語モデル(LLM)問題解決を強化する構造化フレームワークである。 CRはLLMを3つの異なる役割 - Proposer、Verifier(s)、Reporter - タスクを体系的に分解し、中間的推論ステップを生成し、検証し、ソリューションに構成する。
論文参考訳（メタデータ） (2023-08-08T16:18:20Z)
Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文参考訳（メタデータ） (2022-11-16T18:51:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。