論文の概要: Compiled AI: Deterministic Code Generation for LLM-Based Workflow Automation
- arxiv url: http://arxiv.org/abs/2604.05150v1
- Date: Mon, 06 Apr 2026 20:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.477413
- Title: Compiled AI: Deterministic Code Generation for LLM-Based Workflow Automation
- Title(参考訳): コンパイルAI: LLMベースのワークフロー自動化のための決定論的コード生成
- Authors: Geert Trooskens, Aaron Karlsberg, Anmol Sharma, Lamara De Brouwer, Max Van Puyvelde, Matthew Young, John Thickstun, Gil Alterovitz, Walter A. De Brouwer,
- Abstract要約: 我々は,大言語モデルがコンパイルフェーズ中に実行可能なコードアーティファクトを生成するパラダイムであるコンパイルAIについて研究し,その後,さらなるモデル実行を必要とせずに決定的に実行する。
当社のコントリビューションは、ハイテイクなランタイムエンタープライズへの適用に関するシステム指向の研究です。
- 参考スコア(独自算出の注目度): 3.225273674498579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study compiled AI, a paradigm in which large language models generate executable code artifacts during a compilation phase, after which workflows execute deterministically without further model invocation. This paradigm has antecedents in prior work on declarative pipeline optimization (DSPy) and hybrid neural-symbolic planning (LLM+P); our contribution is a systems-oriented study of its application to high-stakes enterprise workflows, with particular emphasis on healthcare settings where reliability and auditability are critical. By constraining generation to narrow business-logic functions embedded in validated templates, compiled AI trades runtime flexibility for predictability, auditability, cost efficiency, and reduced security exposure. We introduce (i) a system architecture for constrained LLM-based code generation, (ii) a four-stage generation-and-validation pipeline that converts probabilistic model output into production-ready code artifacts, and (iii) an evaluation framework measuring operational metrics including token amortization, determinism, reliability, security, and cost. We evaluate on two task types: function-calling (BFCL, n=400) and document intelligence (DocILE, n=5,680 invoices). On function-calling, compiled AI achieves 96% task completion with zero execution tokens, breaking even with runtime inference at approximately 17 transactions and reducing token consumption by 57x at 1,000 transactions. On document intelligence, our Code Factory variant matches Direct LLM on key field extraction (KILE: 80.0%) while achieving the highest line item recognition accuracy (LIR: 80.4%). Security evaluation across 135 test cases demonstrates 96.7% accuracy on prompt injection detection and 87.5% on static code safety analysis with zero false positives.
- Abstract(参考訳): 我々は,大規模な言語モデルがコンパイルフェーズ中に実行可能なコードアーティファクトを生成するパラダイムであるコンパイルAIについて研究し,その後,ワークフローが決定的に実行され,さらなるモデル実行が不要になるようにする。
このパラダイムは、宣言的パイプライン最適化(DSPy)とハイブリッドニューラルシンボリックプランニング(LLM+P)に関する以前の研究に先行しています。
検証済みテンプレートに埋め込まれた狭いビジネス論理関数に生成を制限することにより、コンパイルされたAIは、予測可能性、監査可能性、コスト効率、セキュリティ露出の削減のためにランタイムの柔軟性を交換する。
紹介
(i)制約付きLLMベースのコード生成のためのシステムアーキテクチャ
(ii)確率モデル出力をプロダクション対応コードアーティファクトに変換する4段階生成検証パイプライン
三 トークンの償却、決定論、信頼性、セキュリティ、コストなどの運用指標を測定するための評価フレームワーク。
関数呼び出し (BFCL, n=400) と文書インテリジェンス (DocILE, n=5,680 Invoices) の2つのタスクタイプを評価する。
関数呼び出しでは、コンパイルされたAIは、ゼロ実行トークンで96%のタスク完了を達成し、約17トランザクションで実行時推論を破り、1000トランザクションでトークン消費を57倍削減する。
ドキュメントインテリジェンスでは、コードファクトリの変種がキーフィールド抽出(KILE: 80.0%)で直接LLMと一致し、最高ラインアイテム認識精度(LIR: 80.4%)を達成した。
135のテストケースのセキュリティ評価では、インジェクションのインジェクション検出が96.7%、静的コード安全性分析が87.5%、偽陽性がゼロであることが示されている。
関連論文リスト
- ProdCodeBench: A Production-Derived Benchmark for Evaluating AI Coding Agents [10.578603956693696]
本稿では,ProdCodeBenchを用いて実運用用ベンチマークの計算手法を提案する。
それぞれのキュレートされたサンプルは、7つのプログラミング言語にまたがる冗長なプロンプト、コミットされたコード変更、フェイル・ツー・パステストで構成されている。
4つの基礎モデルの体系的な分析は、53.2%から72.2%の範囲で解決する。
論文 参考訳(メタデータ) (2026-04-02T01:52:55Z) - AVDA: Autonomous Vibe Detection Authoring for Cybersecurity [0.1633272850273525]
AVDAは、モデルコンテキストプロトコル(MCP)を活用して、組織コンテキストをAI支援コード生成に統合することで検出を自動化するフレームワークである。
我々は,多種多様な生産検出コーパスと最先端LCMの3つのオーサリング戦略 – Baseline, Sequential, Agentic – を評価した。
その結果,エージェント品質の87%をトークンコストの40倍以下で達成できた。
論文 参考訳(メタデータ) (2026-03-26T21:52:33Z) - Managing the Stochastic: Foundations of Learning in Neuro-Symbolic Systems for Software Engineering [0.27195102129094995]
AIコーディングエージェントに対する現在のアプローチは、大規模言語モデルとエージェント自体の境界を曖昧にしている。
本稿では, LLM が環境環境の構成要素として扱われるように制御境界を設定することを提案する。
論文 参考訳(メタデータ) (2025-12-18T15:28:21Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。