論文の概要: Deterministic vs. LLM-Controlled Orchestration for COBOL-to-Python Modernization
- arxiv url: http://arxiv.org/abs/2605.09894v1
- Date: Mon, 11 May 2026 02:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.477003
- Title: Deterministic vs. LLM-Controlled Orchestration for COBOL-to-Python Modernization
- Title(参考訳): COBOL-Pythonモダナイゼーションのための決定論的対LLM制御オーケストレーション
- Authors: Naing Oo Lwin, Rajesh Kumar,
- Abstract要約: レガシーシステムの近代化は、専門知識の不足、大規模かつ長期化、厳格な正当性要件のため、依然として困難である。
近年の大規模言語モデル(LLM)に基づく近代化システムは,多段階ツールの実行を制御するエージェント的正当性にますます依存している。
- 参考スコア(独自算出の注目度): 2.3754840025365183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modernizing legacy COBOL systems remains difficult due to scarce expertise, large and long-lived codebases, and strict correctness requirements. Recent large language model (LLM)-based modernization systems increasingly rely on agentic workflows in which the model controls multi-step tool execution. However, it remains unclear whether delegating execution control to the LLM improves correctness, robustness, or efficiency in structured software engineering workflows. We present a controlled empirical study of deterministic and LLM-controlled orchestration for COBOL-to-Python modernization. Using a unified experimental framework, we hold the language models, prompts, tools, configurations, and source programs constant while varying only the execution control strategy. This isolates orchestration as the sole experimental variable. We evaluate both approaches using functional correctness, robustness across repeated stochastic runs, and computational efficiency. Across multiple models, deterministic orchestration achieves comparable computational accuracy to LLM-controlled orchestration while improving worst-case robustness and reducing performance variability across runs. Deterministic execution also reduces token consumption by up to 3.5x, leading to substantially lower operational cost. These results suggest that, in structured modernization workflows with explicit validation stages, fixed execution policies provide more stable and cost-efficient behavior than fully agentic orchestration without reducing translation quality.
- Abstract(参考訳): レガシーなCOBOLシステムの近代化は、専門知識の不足、大規模かつ長期間のコードベース、厳密な正当性要件のため、依然として困難である。
最近の大規模言語モデル(LLM)ベースの近代化システムは、多段階ツールの実行を制御するエージェントワークフローにますます依存している。
しかし、LLMに実行制御を委譲することで、構造化されたソフトウェアエンジニアリングワークフローの正確性、堅牢性、効率性が向上するかどうかは不明だ。
我々は,COBOL-to-Python近代化のための決定論的およびLLM制御オーケストレーションに関する実証的研究を行った。
統一された実験フレームワークを使用して、実行制御戦略のみを変更しながら、言語モデル、プロンプト、ツール、設定、ソースプログラムを一定に保ちます。
これにより、オーケストレーションを唯一の実験変数として分離する。
本稿では,機能的正当性,繰り返し確率実行における頑健性,計算効率の両面から評価する。
複数のモデル全体で、決定論的オーケストレーションは、LLM制御オーケストレーションと同等の計算精度を達成し、最悪のケースの堅牢性を改善し、実行時のパフォーマンス変動を低減します。
決定論的実行はまたトークンの消費を3.5倍に削減し、運用コストを大幅に削減する。
これらの結果は、明示的な検証段階を持つ構造化された近代化ワークフローにおいて、固定実行ポリシーは、翻訳品質を低下させることなく、完全なエージェントオーケストレーションよりも安定的でコスト効率のよい動作を提供することを示唆している。
関連論文リスト
- Evaluating Prompting and Execution-Based Methods for Deterministic Computation in LLMs [1.2957535240267326]
大規模言語モデル(LLM)は、自然言語の理解と推論において強力な能力を示している。
CoT(Chain-of-Thought)、Last-to-Most(Least-to-Most)、Program-of-Thought(PoT)、Self-Consistency(SC)など、複数のプロンプト戦略を体系的に評価する。
提案手法は, 逐次的タスクにおいて, 適度な精度しか達成できないことを示す。
論文 参考訳(メタデータ) (2026-05-04T23:32:37Z) - Execution-Verified Reinforcement Learning for Optimization Modeling [49.171122807323634]
実行検証学習フレームワークは、数学的プログラミング解法を決定論的で対話的な検証器として扱う。
NL4OPT, MAMO, IndustryOR, OptiBenchをグロビ, OR-Tools, COPTで行った実験では, EVOMがプロセス管理SFTに適合または優れていた。
論文 参考訳(メタデータ) (2026-04-01T03:39:11Z) - Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards [76.49428173793386]
LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出す必要がある。
既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しとバイナリ報酬に重点を置いている。
まず、実APIレスポンスの大規模キャッシュを背景とした強化学習環境を構築し、有効なマルチステップオーケストレーショントレースをサンプリングするデータ合成パイプラインを実現する。
第二に、正当性を原子の妥当性とオーケストレーションに分解する、段階的な報酬設計を提案する。
論文 参考訳(メタデータ) (2026-03-25T18:31:39Z) - Robust and Efficient Tool Orchestration via Layered Execution Structures with Reflective Correction [55.13278005189741]
私たちは、高レベルのツール依存関係をキャプチャする階層化された実行構造を学ぶために、ツールオーケストレーションをモデル化します。
本稿では,局所的にエラーを検出し,修正するスキーマ対応反射補正機構を提案する。
この設計では、エラーを個々のツールコールに限定し、実行軌跡全体の再計画を避ける。
論文 参考訳(メタデータ) (2026-02-21T22:20:01Z) - SHERPA: A Model-Driven Framework for Large Language Model Execution [5.595920727790909]
SHERPAは、複雑なタスクにおける大規模言語モデル(LLM)のパフォーマンスを改善するためのモデル駆動フレームワークである。
ドメイン固有のベストプラクティスを階層的なステートマシンに明示的に組み込むことで、SHERPAはよりきめ細かい動作制御を可能にする。
論文 参考訳(メタデータ) (2025-08-29T23:14:21Z) - Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes [33.80591142965565]
CODE2BENCHは、実世界のGitHubリポジトリから、堅牢で汚染に強いベンチマークを動的に構築するためのパイプラインである。
特に、CODE2BENCHは、(1) トレーニングデータの汚染を最小限に抑えるために、最近のコードの周期的取り込みによって達成される自動ダイナミズム、(2) 依存レベルの制御されたベンチマークインスタンスへの関数の構造化可能なスコープグラフベースの依存性分析、(3) 厳密なテストスイートの自動合成のためのプロパティベーステスト(PBT)の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-08-10T05:06:36Z) - Flow: Modularized Agentic Workflow Automation [53.073598156915615]
大規模言語モデル(LLM)を利用したマルチエージェントフレームワークは、自動計画とタスク実行において大きな成功を収めている。
しかし, 実行中のエージェントの効果的な調整は十分に研究されていない。
本稿では,エージェントによる継続的なワークフロー改善を可能にするアクティビティ・オン・頂点(AOV)グラフを定義する。
提案するマルチエージェントフレームワークは,サブタスクの効率的な同時実行,効果的なゴール達成,エラー耐性の向上を実現している。
論文 参考訳(メタデータ) (2025-01-14T04:35:37Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。