Fugu-MT 論文翻訳(概要): Managing the Stochastic: Foundations of Learning in Neuro-Symbolic Systems for Software Engineering

論文の概要: Managing the Stochastic: Foundations of Learning in Neuro-Symbolic Systems for Software Engineering

arxiv url: http://arxiv.org/abs/2512.20660v1
Date: Thu, 18 Dec 2025 15:28:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-25 19:43:21.543581
Title: Managing the Stochastic: Foundations of Learning in Neuro-Symbolic Systems for Software Engineering
Title（参考訳）: 確率的管理 - ソフトウェア工学のためのニューロシンボリックシステムにおける学習の基礎
Authors: Matthew Thompson,
Abstract要約: AIコーディングエージェントに対する現在のアプローチは、大規模言語モデルとエージェント自体の境界を曖昧にしている。本稿では, LLM が環境環境の構成要素として扱われるように制御境界を設定することを提案する。
参考スコア（独自算出の注目度）: 0.27195102129094995
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current approaches to AI coding agents appear to blur the lines between the Large Language Model (LLM) and the agent itself, asking the LLM to make decisions best left to deterministic processes. This leads to systems prone to stochastic failures such as gaming unit tests or hallucinating syntax. Drawing on established software engineering practices that provide deterministic frameworks for managing unpredictable processes, this paper proposes setting the control boundary such that the LLM is treated as a component of the environment environment -- preserving its creative stochasticity -- rather than the decision-making agent. A \textbf{Dual-State Architecture} is formalized, separating workflow state (deterministic control flow) from environment state (stochastic generation). \textbf{Atomic Action Pairs} couple generation with verification as indivisible transactions, where \textbf{Guard Functions} act as sensing actions that project probabilistic outputs onto observable workflow state. The framework is validated on three code generation tasks across 13 LLMs (1.3B--15B parameters). For qualified instruction-following models, task success rates improved by up to 66 percentage points at 1.2--2.1$\times$ baseline computational cost. The results suggest that architectural constraints can substitute for parameter scale in achieving reliable code generation.
Abstract（参考訳）: AIコーディングエージェントに対する現在のアプローチは、Large Language Model(LLM)とエージェント自体の境界を曖昧にしているように見える。これは、ゲームユニットテストや幻覚構文などの確率的失敗を引き起こす。本稿では,予測不可能なプロセスを管理するための決定論的フレームワークを提供する,確立されたソフトウェア工学の実践に基づいて,LCMが意思決定エージェントではなく,環境環境のコンポーネントとして扱われるように制御境界を設定することを提案する。ワークフロー状態(決定論的制御フロー)と環境状態(確率的生成)を分離する。ここで \textbf{Guard Functions} は、観測可能なワークフロー状態に確率的出力を投影する検知アクションとして機能する。このフレームワークは13のLLM(1.3B--15Bパラメータ)にわたる3つのコード生成タスクで検証されている。有資格命令追従モデルでは、タスク成功率は 1.2--2.1$\times$ベースライン計算コストで66ポイント向上した。その結果,信頼性の高いコード生成を実現する上で,アーキテクチャ上の制約をパラメータスケールに置き換えることが可能であることが示唆された。

関連論文リスト

REGAL: A Registry-Driven Architecture for Deterministic Grounding of Agentic AI in Enterprise Telemetry [0.0]
大規模言語モデル(LLM)は、エージェント自動化の新しい形態を可能にする。本稿では,企業テレメトリにおけるエージェントAIシステムの決定論的基盤化のためのレジストリ駆動型アーキテクチャREGALを提案する。
論文参考訳（メタデータ） (2026-03-03T14:13:39Z)
ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文参考訳（メタデータ） (2026-02-05T05:45:16Z)
Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。 ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。 ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文参考訳（メタデータ） (2025-12-31T14:03:39Z)
Monadic Context Engineering [59.95390010097654]
本稿では,エージェント設計の正式な基盤を提供するために,モナディックコンテキストエンジニアリング(MCE)を紹介する。我々は、モナドがロバストなコンポジションをどのように実現し、Applicativesが並列実行に原則化された構造を提供し、また、モナドトランスフォーマーがこれらの機能の体系的なコンポジションをどのように可能にしているかを実証する。この階層化されたアプローチにより、開発者は、単純で独立した検証可能なコンポーネントから、複雑でレジリエントで効率的なAIエージェントを構築することができる。
論文参考訳（メタデータ） (2025-12-27T01:52:06Z)
The 4/$δ$ Bound: Designing Predictable LLM-Verifier Systems for Formal Method Guarantee [5.345468714252351]
この研究は LLM-Verifier Convergence Theorem の開発によってギャップを埋める。 LLMと検証器の相互作用を離散時間マルコフ連鎖としてモデル化する。われわれはこの予測を90,000件以上の治験を含む広範囲な実証キャンペーンでストレステストした。
論文参考訳（メタデータ） (2025-11-30T22:19:09Z)
Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-03T00:30:14Z)
Tractable Asymmetric Verification for Large Language Models via Deterministic Replicability [0.6117371161379209]
大規模言語モデル(LLM)の展望は、動的でマルチエージェントなシステムへと急速にシフトします。本稿では, トラクタブルな非対称な作業を実現するための検証フレームワークを提案する。対象検定は全再生の12倍以上の速さで行うことができる。
論文参考訳（メタデータ） (2025-09-14T03:30:06Z)
Blueprint First, Model Second: A Framework for Deterministic LLM Workflow [3.9886771197662925]
我々は、"Blueprint First, Model Second"哲学に基づいた新しいパラダイムであるSource Code Agentフレームワークを紹介します。私たちのフレームワークは、ワークフローロジックを生成モデルから切り離します。我々の研究は、厳格な手続き論理に支配されるアプリケーションに自律エージェントを検証し、信頼性の高い配置を可能にする。
論文参考訳（メタデータ） (2025-08-01T03:10:00Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
FlowAgent: Achieving Compliance and Flexibility for Workflow Agents [31.088578094151178]
FlowAgentは、コンプライアンスと柔軟性の両方を維持するように設計された新しいエージェントフレームワークである。 PDL を基盤として,OOW クエリを効果的に管理する LLM を支援する包括的フレームワークを開発した。本稿では,LLMエージェントのOOWシナリオ処理能力を評価するための新しい評価手法を提案する。
論文参考訳（メタデータ） (2025-02-20T07:59:31Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。