論文の概要: AgentModernize: Preserving Business Logic in Legacy Modernization with Multi-Agent LLMs and Behavioral Specification Graphs
- arxiv url: http://arxiv.org/abs/2605.17535v1
- Date: Sun, 17 May 2026 16:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.132822
- Title: AgentModernize: Preserving Business Logic in Legacy Modernization with Multi-Agent LLMs and Behavioral Specification Graphs
- Title(参考訳): AgentModernize:マルチエージェントLCMと行動仕様グラフによるレガシーモダナイゼーションにおけるビジネス論理の保存
- Authors: Sheikh Nazib Ahmed, Marnim Galib,
- Abstract要約: 本稿では,モダナイゼーションを行動保存問題として扱うフレームワークであるAgentModernizeを提案する。
4つの専門エージェントが抽出、仕様、コード生成、バリデーションを処理する。
Behavioral Specification Graphは、ゴールドスタンダードルールの91.2%をキャプチャし、ボトルネックは抽出ではなくコード生成であることを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Legacy modernization breaks business logic. Most tools and LLM-based approaches treat modernization as syntax translation, losing implicit rules, edge-case handling, and cross-module constraints. We present AgentModernize, a multi-agent framework that treats modernization as a behavioral preservation problem. Four specialized agents handle extraction, specification, code generation, and validation. The key intermediate artifact -- a Behavioral Specification Graph (BSG) -- forces extracted business logic to be explicit and inspectable before any code is generated. We evaluated on LegacyModernize-8, eight scenarios spanning telecom and banking, using three models (GPT-4o-mini, GPT-4o, GPT-5.3-codex) under a fair protocol: same gold-standard tests, 3 trials, temperature 0.0. Full AgentModernize with feedback was the only configuration with non-zero mean BER under every backbone. SP-LLM and CoT-LLM scored 0.0% on every scenario, on every backbone. AgentModernize without feedback scored 0.0% mean BER with GPT-4o-mini and GPT-5.3-codex; under GPT-4o it achieved non-zero BER only on S1 (44.4%; 5.6% mean over scenarios). Mean BER for full AgentModernize was 9.4% (mini), 8.1% (GPT-4o), and 19.4% (codex). The BSG captures 91.2% of gold-standard rules, confirming that the bottleneck is code generation, not extraction.
- Abstract(参考訳): レガシー・モダナイゼーションはビジネスロジックを壊します。
ほとんどのツールとLLMベースのアプローチは、モダナイゼーションを構文変換として扱い、暗黙の規則、エッジケースハンドリング、モジュール間の制約を失う。
本稿では,モダナイゼーションを行動保存問題として扱うマルチエージェントフレームワークであるAgentModernizeを提案する。
4つの専門エージェントが抽出、仕様、コード生成、バリデーションを処理する。
主要な中間アーティファクト -- Behavioral Specification Graph (BSG) -- は、抽出されたビジネスロジックを、コードが生成される前に明示的に検査できるように強制する。
3つのモデル(GPT-4o-mini, GPT-4o, GPT-5.3-codex)を同一の金標準試験、3つの試行、3つの温度0.0。
フィードバックのあるフルエージェントModernizeは、すべてのバックボーンの下に非ゼロ平均BERを持つ唯一の構成でした。
SP-LLMとCoT-LLMはすべてのシナリオにおいて、すべてのバックボーンで0.0%のスコアを得た。
AgentModernize は GPT-4o-mini と GPT-5.3-codex で平均 BER を0.0%、GPT-4o では非ゼロ BER を S1 (44.4%; 5.6%) でのみ達成した。
フルエージェントのBERの平均は9.4%(ミニ)、8.1%(GPT-4o)、19.4%(コーデックス)であった。
BSGは金本位制規則の91.2%を捉え、ボトルネックは抽出ではなくコード生成であることを確認した。
関連論文リスト
- ContractBench: Can LLM Agents Preserve Observation Contracts? [9.057486468322933]
観察契約の遵守は、緊急かつ回帰的な能力であることを示す。
ContractBenchは、2つの障害モードを探索する33の二重軸タスクのベンチマークである。
i)評価モデルが80%,Claude-Opus-4.6が77.8%, (ii)Qwen 3.5で4B (0%) から9B (56.6%) の急激な家庭内能力崖が397B-A17Bで70.7%, (iii) GPT-5ファミリーでの非単調性スケーリングが消失した。
論文 参考訳(メタデータ) (2026-05-17T06:37:04Z) - AgentCollabBench: Diagnosing When Good Agents Make Bad Collaborators [0.0]
AgentCollabBenchは、ソフトウェアエンジニアリング、DevOps、データエンジニアリングにまたがる900の人為的なタスクの診断ベンチマークです。
各タスクは、4つの行動リスクのうちの1つを分離する。
GPT 4.1 mini, Gemini 2.5 Flash Lite, Qwen-3.5-35B-A3B, Llama 3.1 8B の4つの近代LCMの評価を行った。
通信トポロジは、マルチホップ情報サバイバルにおけるばらつきの7-40%を説明する主要なリスクファクターとして現れる。
論文 参考訳(メタデータ) (2026-05-09T03:35:09Z) - Constraint-Guided Multi-Agent Decompilation for Executable Binary Recovery [47.704311990064554]
脱コンパイルは、セキュリティ分析、マルウェアのリバースエンジニアリング、レガシーソフトウェアメンテナンスに不可欠である。
マルチレベル制約誘導型デコンパイル(MCGD)により,デコンパイルされたコードを再実行可能なソースに変換するマルチエージェントフレームワークを提案する。
本フレームワークは,84~97%の再実行性を実現し,28~89ポイントのベースラインデコンパイラ出力を改善した。
論文 参考訳(メタデータ) (2026-04-27T01:28:11Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs [0.6345523830122167]
大規模言語モデルは、ドメイン適応と命令アライメントを組み合わせる際に驚くべきアダプタ干渉を示す。
医学LLMのための2段階のLORAパイプラインについて検討し、ドメイン指向事前トレーニング(PT)と教師付き微調整(SFT)を個別に訓練し、後にマージした。
論文 参考訳(メタデータ) (2026-01-26T10:54:06Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - You Don't Need Prompt Engineering Anymore: The Prompting Inversion [0.3946915822335988]
Sculptingは、標準CoTを改善するために設計された制約付きルールベースのプロンプト手法である。
3つのOpenAIモデル世代にわたる3つのプロンプト戦略を評価する。
論文 参考訳(メタデータ) (2025-10-25T11:04:01Z) - AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems? [71.21547572568655]
AgenTracer-8Bは、マルチグラニュラ強化学習で訓練された軽量障害トレーサである。
Who&Whenベンチマークでは、AgenTracer-8BはGemini-2.5-ProやClaude-4-Sonnetのような巨大なLLMを最大18.18%上回っている。
AgenTracer-8BはMetaGPTやMAASのような市販のマルチエージェントシステムに4.8-14.2%の性能向上をもたらす。
論文 参考訳(メタデータ) (2025-09-03T13:42:14Z) - Know the Ropes: A Heuristic Strategy for LLM-based Multi-Agent System Design [27.246783209927464]
Know-The-Ropesは、ドメインの優先順位をアルゴリズムの青写真階層に変換するフレームワークである。
3つのGPT-4o-miniエージェントは、1つのボトルネックエージェントをパッチした後、サイズ5のインスタンスで3%ゼロショットから95%に精度を上げる。
論文 参考訳(メタデータ) (2025-05-22T17:52:33Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。