論文の概要: From Translation to Superset: Benchmark-Driven Evolution of a Production AI Agent from Rust to Python
- arxiv url: http://arxiv.org/abs/2604.11518v1
- Date: Mon, 13 Apr 2026 14:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.597526
- Title: From Translation to Superset: Benchmark-Driven Evolution of a Production AI Agent from Rust to Python
- Title(参考訳): 翻訳からスーパーセットへ:RustからPythonへのプロダクションAIエージェントのベンチマーク駆動進化
- Authors: Jinhua Wang, Biswa Sengupta,
- Abstract要約: 本稿では,大規模な言語モデルでRustの目的をPythonに翻訳するLLM支援型連続コード翻訳手法を提案する。
我々は、Pythonポートが59/80 SWE-bench検証タスク(73.8%)をRustの56/80(70.0%)に対して解決し、現実世界のエージェントタスクでほぼ同等であることを実証した。
評価の結果,APIレイテンシが支配的な LLM ベースのエージェントでは,Python の表現性が 15.9 倍のコード削減を実現している。
- 参考スコア(独自算出の注目度): 2.7324157162184157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-language migration of large software systems is a persistent engineering challenge, particularly when the source codebase evolves rapidly. We present a methodology for LLM-assisted continuous code translation in which a large language model translates a production Rust codebase (648K LOC, 65 crates) into Python (41K LOC, 28 modules), with public agent benchmarks as the objective function driving iterative refinement. Our subject system is Codex CLI, a production AI coding agent. We demonstrate that: (1) the Python port resolves 59/80 SWE-bench Verified tasks (73.8%) versus Rust's 56/80 (70.0%), and achieves 42.5% on Terminal-Bench versus Rust's 47.5%, confirming near-parity on real-world agentic tasks; (2) benchmark-driven debugging, revealing API protocol mismatches, environment pollution, a silent WebSocket failure mode, and an API 400 crash, is more effective than static testing alone; (3) the architecture supports continuous upstream synchronisation via an LLM-assisted diff-translate-test loop; and (4) the Python port has evolved into a capability superset with 30 feature-flagged extensions (multi-agent orchestration, semantic memory, guardian safety, cost tracking) absent from Rust, while preserving strict parity mode for comparison. Our evaluation shows that for LLM-based agents where API latency dominates, Python's expressiveness yields a 15.9x code reduction with negligible performance cost, while the benchmark-as-objective-function methodology provides a principled framework for growing a cross-language port from parity into an extended platform.
- Abstract(参考訳): 大規模なソフトウェアシステムの言語間移行は、特にソースコードベースが急速に進化している場合、永続的なエンジニアリング上の課題である。
本稿では,大規模な言語モデルを用いて,Rustのコードベース(648K LOC,65クラッド)をPython(41K LOC,28モジュール)に翻訳するLLM支援型連続コード翻訳手法を提案する。
対象システムは、プロダクションAIコーディングエージェントであるCodex CLIである。
Pythonポートは、59/80 SWE-benchの検証タスク(73.8%)とRustの56/80(70.0%)を解決し、Contination-Bench対Rustの47.5%で42.5%を達成し、現実のエージェントタスクのニアパリティ確認、ベンチマーク駆動デバッグ、APIプロトコルのミスマッチ、環境汚染、サイレントなWebSocket障害モード、API 400クラッシュは、静的テストよりも効果的である。
評価の結果,APIレイテンシが支配的な LLM ベースのエージェントでは,Python の表現性は無視可能なパフォーマンスコストで 15.9 倍のコード削減を実現している。
関連論文リスト
- RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。
18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。
その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2026-01-20T13:19:20Z) - Anka: A Domain-Specific Language for Reliable LLM Code Generation [0.0]
大規模言語モデル(LLM)は、複雑な多段階プログラミングタスクの体系的なエラーを示す。
明示的で制約のある構文で設計されたデータ変換パイプライン用のドメイン固有言語()であるAnkaを紹介します。
Ankaは100のベンチマーク問題に対して99.9%のパース成功と95.8%のタスク精度を達成した。
論文 参考訳(メタデータ) (2025-12-29T05:28:17Z) - A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。
85.7%は単一のプログラミング言語に重点を置いている。
94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。
80%以上は平均10件未満のテストケースを含む。
論文 参考訳(メタデータ) (2025-09-30T11:30:08Z) - RustEvo^2: An Evolving Benchmark for API Evolution in LLM-based Rust Code Generation [28.156862491709237]
RustEvoは、大きな言語モデルがRust APIに適応する能力を評価するためのフレームワークである。
実際の課題を反映したプログラミングタスクに588のAPI変更を合成することで、データセット生成を自動化する。
最先端 (SOTA) LLM 実験では, 性能が著しく変化した。
論文 参考訳(メタデータ) (2025-03-21T07:33:59Z) - RustRepoTrans: Repository-level Code Translation Benchmark Targeting Rust [50.65321080814249]
RustRepoTransは、インクリメンタル翻訳をターゲットにした、最初のリポジトリレベルのコンテキストコード変換ベンチマークである。
複雑な翻訳シナリオの制約を評価するために, 7つの代表的なLLMを評価し, それらの誤差を分析した。
論文 参考訳(メタデータ) (2024-11-21T10:00:52Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。