論文の概要: Managing the Stochastic: Foundations of Learning in Neuro-Symbolic Systems for Software Engineering
- arxiv url: http://arxiv.org/abs/2512.20660v1
- Date: Thu, 18 Dec 2025 15:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.543581
- Title: Managing the Stochastic: Foundations of Learning in Neuro-Symbolic Systems for Software Engineering
- Title(参考訳): 確率的管理 - ソフトウェア工学のためのニューロシンボリックシステムにおける学習の基礎
- Authors: Matthew Thompson,
- Abstract要約: AIコーディングエージェントに対する現在のアプローチは、大規模言語モデルとエージェント自体の境界を曖昧にしている。
本稿では, LLM が環境環境の構成要素として扱われるように制御境界を設定することを提案する。
- 参考スコア(独自算出の注目度): 0.27195102129094995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches to AI coding agents appear to blur the lines between the Large Language Model (LLM) and the agent itself, asking the LLM to make decisions best left to deterministic processes. This leads to systems prone to stochastic failures such as gaming unit tests or hallucinating syntax. Drawing on established software engineering practices that provide deterministic frameworks for managing unpredictable processes, this paper proposes setting the control boundary such that the LLM is treated as a component of the environment environment -- preserving its creative stochasticity -- rather than the decision-making agent. A \textbf{Dual-State Architecture} is formalized, separating workflow state (deterministic control flow) from environment state (stochastic generation). \textbf{Atomic Action Pairs} couple generation with verification as indivisible transactions, where \textbf{Guard Functions} act as sensing actions that project probabilistic outputs onto observable workflow state. The framework is validated on three code generation tasks across 13 LLMs (1.3B--15B parameters). For qualified instruction-following models, task success rates improved by up to 66 percentage points at 1.2--2.1$\times$ baseline computational cost. The results suggest that architectural constraints can substitute for parameter scale in achieving reliable code generation.
- Abstract(参考訳): AIコーディングエージェントに対する現在のアプローチは、Large Language Model(LLM)とエージェント自体の境界を曖昧にしているように見える。
これは、ゲームユニットテストや幻覚構文などの確率的失敗を引き起こす。
本稿では,予測不可能なプロセスを管理するための決定論的フレームワークを提供する,確立されたソフトウェア工学の実践に基づいて,LCMが意思決定エージェントではなく,環境環境のコンポーネントとして扱われるように制御境界を設定することを提案する。
ワークフロー状態(決定論的制御フロー)と環境状態(確率的生成)を分離する。
ここで \textbf{Guard Functions} は、観測可能なワークフロー状態に確率的出力を投影する検知アクションとして機能する。
このフレームワークは13のLLM(1.3B--15Bパラメータ)にわたる3つのコード生成タスクで検証されている。
有資格命令追従モデルでは、タスク成功率は 1.2--2.1$\times$ベースライン計算コストで66ポイント向上した。
その結果,信頼性の高いコード生成を実現する上で,アーキテクチャ上の制約をパラメータスケールに置き換えることが可能であることが示唆された。
関連論文リスト
- The 4/$δ$ Bound: Designing Predictable LLM-Verifier Systems for Formal Method Guarantee [5.345468714252351]
この研究は LLM-Verifier Convergence Theorem の開発によってギャップを埋める。
LLMと検証器の相互作用を離散時間マルコフ連鎖としてモデル化する。
われわれはこの予測を90,000件以上の治験を含む広範囲な実証キャンペーンでストレステストした。
論文 参考訳(メタデータ) (2025-11-30T22:19:09Z) - Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z) - Tractable Asymmetric Verification for Large Language Models via Deterministic Replicability [0.6117371161379209]
大規模言語モデル(LLM)の展望は、動的でマルチエージェントなシステムへと急速にシフトします。
本稿では, トラクタブルな非対称な作業を実現するための検証フレームワークを提案する。
対象検定は全再生の12倍以上の速さで行うことができる。
論文 参考訳(メタデータ) (2025-09-14T03:30:06Z) - Blueprint First, Model Second: A Framework for Deterministic LLM Workflow [3.9886771197662925]
我々は、"Blueprint First, Model Second"哲学に基づいた新しいパラダイムであるSource Code Agentフレームワークを紹介します。
私たちのフレームワークは、ワークフローロジックを生成モデルから切り離します。
我々の研究は、厳格な手続き論理に支配されるアプリケーションに自律エージェントを検証し、信頼性の高い配置を可能にする。
論文 参考訳(メタデータ) (2025-08-01T03:10:00Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - FlowAgent: Achieving Compliance and Flexibility for Workflow Agents [31.088578094151178]
FlowAgentは、コンプライアンスと柔軟性の両方を維持するように設計された新しいエージェントフレームワークである。
PDL を基盤として,OOW クエリを効果的に管理する LLM を支援する包括的フレームワークを開発した。
本稿では,LLMエージェントのOOWシナリオ処理能力を評価するための新しい評価手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T07:59:31Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。