Fugu-MT 論文翻訳(概要): TerraFormer: Automated Infrastructure-as-Code with LLMs Fine-Tuned via Policy-Guided Verifier Feedback

論文の概要: TerraFormer: Automated Infrastructure-as-Code with LLMs Fine-Tuned via Policy-Guided Verifier Feedback

arxiv url: http://arxiv.org/abs/2601.08734v1
Date: Tue, 13 Jan 2026 17:08:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-14 18:27:19.302528
Title: TerraFormer: Automated Infrastructure-as-Code with LLMs Fine-Tuned via Policy-Guided Verifier Feedback
Title（参考訳）: TerraFormer: LLMによるインフラストラクチャ・アズ・コードの自動化
Authors: Prithwish Jana, Sam Davidson, Bhavana Bhasker, Andrey Kan, Anoop Deoras, Laurent Callot,
Abstract要約: TerraFormerはIaC生成と突然変異のための神経シンボリックなフレームワークである。教師付き微調整と検証者による強化学習を組み合わせる。 TF-Gen (Test) と TF-Mutn (Test) の両方で、より大きなモデルより優れています。
参考スコア（独自算出の注目度）: 12.759452183779162
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Automating Infrastructure-as-Code (IaC) is challenging, and large language models (LLMs) often produce incorrect configurations from natural language (NL). We present TerraFormer, a neuro-symbolic framework for IaC generation and mutation that combines supervised fine-tuning with verifier-guided reinforcement learning, using formal verification tools to provide feedback on syntax, deployability, and policy compliance. We curate two large, high-quality NL-to-IaC datasets, TF-Gen (152k instances) and TF-Mutn (52k instances), via multi-stage verification and iterative LLM self-correction. Evaluations against 17 state-of-the-art LLMs, including ~50x larger models like Sonnet 3.7, DeepSeek-R1, and GPT-4.1, show that TerraFormer improves correctness over its base LLM by 15.94% on IaC-Eval, 11.65% on TF-Gen (Test), and 19.60% on TF-Mutn (Test). It outperforms larger models on both TF-Gen (Test) and TF-Mutn (Test), ranks third on IaC-Eval, and achieves top best-practices and security compliance.
Abstract（参考訳）: インフラストラクチャ・アズ・コード(IaC)の自動化は困難であり、大きな言語モデル(LLM)はしばしば自然言語(NL)から誤った設定を生成する。本稿では,IaC生成と突然変異のためのニューロシンボリックフレームワークであるTerraFormerについて,教師付き微調整と検証ガイド付き強化学習を組み合わせることで,文法,デプロイ性,ポリシーコンプライアンスに対するフィードバックを提供するための形式的検証ツールを提案する。大規模かつ高品質なNL-to-IaCデータセットとTF-Gen (152kインスタンス)とTF-Mutn (52kインスタンス)を多段階検証と反復LDM自己補正によりキュレートする。 Sonnet 3.7、DeepSeek-R1、GPT-4.1のような50倍の大型モデルを含む17の最先端LCMに対する評価では、TerraFormerはIaC-Evalで15.94%、TF-Gen(Test)で11.65%、TF-Mutn(Test)で19.60%改善している。 TF-Gen(Test)とTF-Mutn(Test)の両方で大きなモデルを上回っ、IaC-Evalで3位となり、最高のベストプラクティスとセキュリティコンプライアンスを達成した。

関連論文リスト

CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文参考訳（メタデータ） (2026-01-30T10:33:29Z)
"Don't Teach Minerva": Guiding LLMs Through Complex Syntax for Faithful Latin Translation with RAG [0.5076419064097734]
本稿では,オープンソースのLarge Language Modelsを上位レベルのプロプライエタリシステムに統計的に匹敵する性能レベルに引き上げる,再現可能なドラフトベース改良パイプラインを提案する。標準的なドメイン内テストセット(Rosenthal, 2023)と12世紀のラテン文字(2025)からなる新しいドメイン外テストセット(OOD)である。
論文参考訳（メタデータ） (2025-11-03T11:11:27Z)
David vs. Goliath: A comparative study of different-sized LLMs for code generation in the domain of automotive scenario generation [1.6752458252726459]
大きな言語モデル(LLM)を持つNL-to-Scenic生成は、少ないデータ、限られたメトリクスに悩まされる。 NL2Scenicは146組のNL/Scenicペアを持つオープンデータセットとフレームワークであり、難易度の高い30ケースのテスト分割とサンプルレトリバーを紹介する。 4つのプロプライエタリ(GPT-4o, GPT-5, Claude-Sonnet-4, Gemini-2.5-pro)と9つのオープンソースコードモデル(Qwen2.5Coder 0.5B-32B; CodeLlama 7B/13B/34B)を評価した。
論文参考訳（メタデータ） (2025-10-15T21:37:02Z)
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models [194.64264251080454]
GLM-4.5はオープンソースのMixture-of-Experts(MoE)大言語モデルであり,総パラメータは355B,アクティベートパラメータは32Bである。 23Tトークンのマルチステージトレーニングと、エキスパートモデルのイテレーションと強化学習による総合的なポストトレーニングを通じて、GLM-4.5はエージェント、推論、コーディングタスクにわたって強力なパフォーマンスを実現している。 GLM-4.5(355Bパラメータ)とGLM-4.5-Air(106Bパラメータ)をそれぞれリリースし、推論とエージェントAIシステムの研究を進めた。
論文参考訳（メタデータ） (2025-08-08T17:21:06Z)
Can Large Language Models Automate the Refinement of Cellular Network Specifications? [12.648016409257501]
本稿では,大規模言語モデル (LLM) のセルラーネットワーク仕様自動修正への適用性について検討する。トップモデルでは、5つのトライアルで200のテストケース中127以上でセキュリティ関連の弱点を発見することができる。 30の細胞攻撃の評価は、完全な自動化を達成するためのオープンな課題を特定する。
論文参考訳（メタデータ） (2025-07-06T02:40:04Z)
RIDE: Enhancing Large Language Model Alignment through Restyled In-Context Learning Demonstration Exemplars [57.6513924960128]
調整調整は、大きな言語モデル(LLM)が倫理的かつ有用な振る舞いを確実にするために不可欠である。本稿では,LLMアライメントを向上させるために,ICL(In-context Learning)を用いた低コストでチューニング不要な手法を提案する。
論文参考訳（メタデータ） (2025-02-17T11:16:19Z)
Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は自動テストケース生成で人気を集めている。 LLMは大量のオープンソースコードでトレーニングされているため、ベストプラクティスに従わないテストケースをしばしば生成します。静的解析に基づく品質指標に基づく高品質な単体テストを生成するために,RLSQM(Reinforcement Learning from Static Quality Metrics)を提案する。
論文参考訳（メタデータ） (2024-12-18T20:20:01Z)
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文参考訳（メタデータ） (2024-07-02T17:59:17Z)
How secure is AI-generated Code: A Large-Scale Comparison of Large Language Models [3.4887856546295333]
本研究では,C言語記述時の脆弱性発生傾向について,最先端のLarge Language Model (LLM)を比較した。生成されたプログラムの少なくとも62.07%は脆弱性がある。
論文参考訳（メタデータ） (2024-04-29T01:24:14Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。