論文の概要: ProxyWar: Dynamic Assessment of LLM Code Generation in Game Arenas
- arxiv url: http://arxiv.org/abs/2602.04296v1
- Date: Wed, 04 Feb 2026 07:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.428324
- Title: ProxyWar: Dynamic Assessment of LLM Code Generation in Game Arenas
- Title(参考訳): ProxyWar: ゲームアリーナにおけるLLMコード生成の動的評価
- Authors: Wenjun Peng, Xinyu Wang, Qi Wu,
- Abstract要約: 本稿では,コード生成品質を体系的に評価する新しいフレームワークであるProxyWarを紹介する。
既存のアプローチとは異なり、ProxyWarは関数的正確性だけでなく、生成されたプログラムの動作特性も評価している。
- 参考スコア(独自算出の注目度): 11.101957427633614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have revolutionized automated code generation, yet the evaluation of their real-world effectiveness remains limited by static benchmarks and simplistic metrics. We present ProxyWar, a novel framework that systematically assesses code generation quality by embedding LLM-generated agents within diverse, competitive game environments. Unlike existing approaches, ProxyWar evaluates not only functional correctness but also the operational characteristics of generated programs, combining automated testing, iterative code repair, and multi-agent tournaments to provide a holistic view of program behavior. Applied to a range of state-of-the-art coders and games, our approach uncovers notable discrepancies between benchmark scores and actual performance in dynamic settings, revealing overlooked limitations and opportunities for improvement. These findings highlight the need for richer, competition-based evaluation of code generation. Looking forward, ProxyWar lays a foundation for research into LLM-driven algorithm discovery, adaptive problem solving, and the study of practical efficiency and robustness, including the potential for models to outperform hand-crafted agents. The project is available at https://github.com/xinke-wang/ProxyWar.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動コード生成に革命をもたらしたが、実際の有効性の評価は、静的ベンチマークと単純化メトリクスによって制限されている。
本稿では,LLM生成エージェントを多種多様な競合ゲーム環境に埋め込むことで,コード生成品質を体系的に評価する新しいフレームワークであるProxyWarを提案する。
既存のアプローチとは異なり、ProxyWarは関数的正当性だけでなく、自動テスト、反復コード修復、マルチエージェントトーナメントを組み合わせたプログラムの動作特性も評価し、プログラム動作の全体像を提供する。
最先端のコーダやゲームに適用することで,ベンチマークスコアと動的設定における実際のパフォーマンスの相違が明らかになり,見過ごされた制限や改善の機会が明らかになった。
これらの知見は、よりリッチで競争ベースのコード生成評価の必要性を浮き彫りにしている。
今後、ProxyWarはLLM駆動のアルゴリズム発見、適応的問題解決、実用的効率と堅牢性の研究の基盤を築き、手作りのエージェントよりも優れたモデルの可能性を含んでいる。
このプロジェクトはhttps://github.com/xinke-wang/ProxyWar.comで入手できる。
関連論文リスト
- PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code [1.1164117387254457]
大言語モデル(LLM)ベースのコードアシスタントは、生成AIの強力な応用として登場した。
これらのシステムの主な要件は、ユーザの指示を正確に従う能力である。
PACIFICは,逐次命令追従機能とコードドライラン機能とを厳格に評価するベンチマークを自動的に生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T14:49:56Z) - From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - RefactorCoderQA: Benchmarking LLMs for Multi-Domain Coding Question Solutions in Cloud and Edge Deployment [20.416910591388618]
本稿では,Large Language Models (LLM) の性能を評価するためのベンチマークであるRefactorCoderQAを紹介する。
我々の微調整モデルであるRefactorCoder-MoEは最先端のパフォーマンスを実現し、オープンソースと商用のベースラインを76.84%で上回りました。
論文 参考訳(メタデータ) (2025-09-12T17:44:22Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization [31.908590128913094]
HeuriGymは、LLM(Large Language Models)によって生成されたアルゴリズムを評価するために設計されたエージェントフレームワークである。
我々は、コンピュータシステム、ロジスティクス、生物学などの分野における9つの問題に対する9つの最先端モデルを評価し、ツールの使用、計画、適応推論における永続的な制限を明らかにした。
我々のオープンソースベンチマークは、科学・工学分野におけるLLMの開発をより効果的で現実的な問題解決に導くことを目的としています。
論文 参考訳(メタデータ) (2025-06-09T17:46:47Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Enhancing LLM Code Generation: A Systematic Evaluation of Multi-Agent Collaboration and Runtime Debugging for Improved Accuracy, Reliability, and Latency [0.0]
プログラミング活動の異なる構成や訓練パラダイムがコード生成の効率に与える影響について検討する。
私たちの発見は、堅牢なAI駆動型コーディングソリューションを求める組織に貴重な洞察を与えます。
論文 参考訳(メタデータ) (2025-05-04T14:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。