論文の概要: Multi-IaC-Eval: Benchmarking Cloud Infrastructure as Code Across Multiple Formats
- arxiv url: http://arxiv.org/abs/2509.05303v1
- Date: Thu, 21 Aug 2025 22:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-14 20:41:04.900476
- Title: Multi-IaC-Eval: Benchmarking Cloud Infrastructure as Code Across Multiple Formats
- Title(参考訳): Multi-IaC-Eval: クラウドインフラストラクチャを複数のフォーマットにまたがるコードとしてベンチマークする
- Authors: Sam Davidson, Li Sun, Bhavana Bhasker, Laurent Callot, Anoop Deoras,
- Abstract要約: LLM(Large Language Models)に基づくIaC生成と突然変異を評価するための新しいベンチマークデータセットであるMulti-IaC-Benchを提案する。
データセットは、初期IaCテンプレート、自然言語修正要求、およびそれに対応する更新テンプレートを含む三つ組で構成されている。
我々は,Multi-IaC-Bench 上での最先端 LLM の評価を行い,現代 LLM は構文的に有効な IaC の生成において高い成功率 (>95%) を達成できるが,意味的アライメントや複雑なインフラストラクチャパターンの処理には大きな課題が残っていることを示した。
- 参考スコア(独自算出の注目度): 12.813627159588032
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Infrastructure as Code (IaC) is fundamental to modern cloud computing, enabling teams to define and manage infrastructure through machine-readable configuration files. However, different cloud service providers utilize diverse IaC formats. The lack of a standardized format requires cloud architects to be proficient in multiple IaC languages, adding complexity to cloud deployment. While Large Language Models (LLMs) show promise in automating IaC creation and maintenance, progress has been limited by the lack of comprehensive benchmarks across multiple IaC formats. We present Multi-IaC-Bench, a novel benchmark dataset for evaluating LLM-based IaC generation and mutation across AWS CloudFormation, Terraform, and Cloud Development Kit (CDK) formats. The dataset consists of triplets containing initial IaC templates, natural language modification requests, and corresponding updated templates, created through a synthetic data generation pipeline with rigorous validation. We evaluate several state-of-the-art LLMs on Multi-IaC-Bench, demonstrating that while modern LLMs can achieve high success rates (>95%) in generating syntactically valid IaC across formats, significant challenges remain in semantic alignment and handling complex infrastructure patterns. Our ablation studies highlight the importance of prompt engineering and retry mechanisms in successful IaC generation. We release Multi-IaC-Bench to facilitate further research in AI-assisted infrastructure management and establish standardized evaluation metrics for this crucial domain.
- Abstract(参考訳): インフラストラクチャ・アズ・コード(Infrastructure as Code, IaC)は、現代的なクラウドコンピューティングの基本であり、マシン可読構成ファイルを通じてインフラストラクチャを定義し管理することを可能にする。
しかし、異なるクラウドサービスプロバイダは多様なIaCフォーマットを使用する。
標準化されたフォーマットがないため、クラウドアーキテクトは複数のIaC言語に精通し、クラウドデプロイメントに複雑さを増す必要がある。
大きな言語モデル(LLM)は、IaCの作成とメンテナンスを自動化することを約束しているが、複数のIaCフォーマットにまたがる包括的なベンチマークが欠如しているため、進歩は制限されている。
Multi-IaC-Benchは、AWS CloudFormation、Terraform、Cloud Development Kit(CDK)フォーマット間でLLMベースのIaC生成と突然変異を評価するための、新しいベンチマークデータセットである。
データセットは、初期IaCテンプレート、自然言語修正要求、およびそれに対応する更新テンプレートを含む三つ組で構成され、厳密な検証を伴う合成データ生成パイプラインを通じて生成される。
我々は,Multi-IaC-Bench 上での最先端 LLM の評価を行い,現代 LLM は構文的に有効な IaC の生成において高い成功率 (>95%) を達成できるが,意味的アライメントや複雑なインフラストラクチャパターンの処理には大きな課題が残っていることを示した。
我々のアブレーション研究は、IaC生成を成功させる上で、迅速なエンジニアリングと再試行のメカニズムの重要性を強調している。
我々は、AI支援インフラストラクチャ管理のさらなる研究を促進するため、Multi-IaC-Benchをリリースし、この重要な領域の標準化された評価基準を確立する。
関連論文リスト
- LM-Searcher: Cross-domain Neural Architecture Search with LLMs via Unified Numerical Encoding [55.5535016040221]
LM-Searcherは、クロスドメインニューラルネットワーク最適化のための新しいフレームワークである。
我々のアプローチの中心は、ニューラルネットワークのための普遍的な数値文字列表現であるNCodeである。
我々のデータセットは、幅広いアーキテクチャとパフォーマンスのペアを含み、堅牢で伝達可能な学習を促進する。
論文 参考訳(メタデータ) (2025-09-06T09:26:39Z) - OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - Speed Always Wins: A Survey on Efficient Architectures for Large Language Models [51.817121227562964]
大規模言語モデル(LLM)は、言語理解、生成、推論、マルチモーダルモデルの能力境界の押し付けにおいて、素晴らしい結果をもたらしている。
トランスフォーマーモデルは、現代のLLMの基礎として、優れたスケーリング特性を備えた強力なベースラインを提供する。
従来のトランスフォーマーアーキテクチャは、相当な計算を必要とし、大規模なトレーニングと実践的なデプロイメントに重大な障害を生じさせる。
論文 参考訳(メタデータ) (2025-08-13T14:13:46Z) - JARVIS: A Multi-Agent Code Assistant for High-Quality EDA Script Generation [3.6946337486060776]
JARVISは、LLM(Large Language Models)とドメインの専門知識を活用して、EDAタスクのための高品質なスクリプトを生成する、新しいマルチエージェントフレームワークである。
合成データを用いて訓練されたドメイン固有LLM, 構造検証, ルール強制, コード修正機能, 高度な検索機構のカスタムコンパイラを組み合わせることにより, 本手法は最先端のドメイン固有モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-20T23:40:57Z) - OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions [58.46747176834132]
我々は,Large Language Models (LLMs) を評価するために設計された,新しいベンチマークツールボックスであるOmniEvalKitを紹介する。
単一の側面にフォーカスする既存のベンチマークとは異なり、OmniEvalKitはモジュール化され、軽量で、自動評価システムを提供する。
Static BuilderとDynamic Data Flowで構成されるモジュールアーキテクチャで構成されており、新しいモデルとデータセットのシームレスな統合を促進する。
論文 参考訳(メタデータ) (2024-12-09T17:39:43Z) - A Survey of using Large Language Models for Generating Infrastructure as Code [3.514825979961616]
インフラストラクチャ・アズ・コード(Infrastructure as Code, IaC)は、業界で注目されている革新的なアプローチです。
この問題に対処するために,Large Language Models (LLM) の適用可能性について検討する。
論文 参考訳(メタデータ) (2024-03-30T02:57:55Z) - Statically Inferring Usage Bounds for Infrastructure as Code [0.9886108751871757]
インフラストラクチャ・アズ・コード(IaC)は、クラウドにプロビジョニングされたリソースの複雑なデプロイメントの作成と修正において、クラウド顧客がよりアジリティを持つことを可能にする。
本稿では,IaCデプロイメントにおけるリソース間相互作用を制約の集合としてモデル化し,詳細な静的利用分析を行うツールを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:27:56Z) - Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。
当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-26T18:46:14Z) - Benchmarking Diverse-Modal Entity Linking with Generative Models [78.93737257356784]
既存の EL データセットから様々なモード EL (DMEL) のベンチマークを構築した。
DMEL タスクにアプローチするため,マルチモーダルエンコーダ・デコーダのパラダイムに則って生成多モードモデル (GDMM) を提案する。
GDMMは、より強力なDMELベースラインを構築し、平均8.51F1スコアで最先端のタスク固有のELモデルを上回っている。
論文 参考訳(メタデータ) (2023-05-27T02:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。