論文の概要: SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving
- arxiv url: http://arxiv.org/abs/2505.23932v2
- Date: Mon, 02 Jun 2025 17:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.465617
- Title: SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving
- Title(参考訳): SwingArena: 長文のGitHub問題解決のための競争力のあるプログラミングアリーナ
- Authors: Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai Wong,
- Abstract要約: We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
- 参考スコア(独自算出の注目度): 90.32201622392137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs) that closely mirrors real-world software development workflows. Unlike traditional static benchmarks, SwingArena models the collaborative process of software iteration by pairing LLMs as submitters, who generate patches, and reviewers, who create test cases and verify the patches through continuous integration (CI) pipelines. To support these interactive evaluations, we introduce a retrieval-augmented code generation (RACG) module that efficiently handles long-context challenges by providing syntactically and semantically relevant code snippets from large codebases, supporting multiple programming languages (C++, Python, Rust, and Go). This enables the framework to scale across diverse tasks and contexts while respecting token limitations. Our experiments, using over 400 high-quality real-world GitHub issues selected from a pool of 2,300 issues, show that models like GPT-4o excel at aggressive patch generation, whereas DeepSeek and Gemini prioritize correctness in CI validation. SwingArena presents a scalable and extensible methodology for evaluating LLMs in realistic, CI-driven software development settings. More details are available on our project page: swing-bench.github.io
- Abstract(参考訳): 我々は,Large Language Models (LLMs) のための競争力のある評価フレームワークであるSwingArenaを紹介した。
従来の静的ベンチマークとは異なり、SwingArenaは、LSMをパッチを生成するサブミッタと、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するレビュアーとをペアにすることで、ソフトウェアイテレーションの協調プロセスをモデル化する。
これらのインタラクティブな評価をサポートするために,大規模なコードベースから構文的および意味論的に関連付けられたコードスニペットを提供し,複数のプログラミング言語(C++,Python,Rust,Go)をサポートすることで,長期コンテキストの課題を効率的に処理する検索拡張コード生成(RACG)モジュールを導入する。
これにより、トークン制限を尊重しながら、さまざまなタスクやコンテキストにまたがるスケールが可能になる。
2300のイシューから選択された400以上の高品質の現実のGitHubイシューを使用して、当社の実験では、GPT-4oのようなモデルがアグレッシブなパッチ生成で優れている一方で、DeepSeekとGeminiはCIバリデーションの正確性を優先しています。
SwingArenaは、現実的でCI駆動のソフトウェア開発環境でLLMを評価するための、スケーラブルで拡張可能な方法論を提示している。
Swing-bench.github.io
関連論文リスト
- SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - Detecting Continuous Integration Skip : A Reinforcement Learning-based Approach [0.4297070083645049]
継続的統合(CI)プラクティスは、自動ビルドとテストプロセスを採用することで、コード変更のシームレスな統合を促進する。
Travis CIやGitHub Actionsといった一部のフレームワークは、CIプロセスの簡素化と強化に大きく貢献している。
開発者はCI実行に適したコミットやスキップの候補としてコミットを正確にフラグ付けすることの難しさに悩まされ続けている。
論文 参考訳(メタデータ) (2024-05-15T18:48:57Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。
我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文 参考訳(メタデータ) (2023-10-10T16:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。