Fugu-MT 論文翻訳(概要): SEAlign: Alignment Training for Software Engineering Agent

論文の概要: SEAlign: Alignment Training for Software Engineering Agent

arxiv url: http://arxiv.org/abs/2503.18455v1
Date: Mon, 24 Mar 2025 08:59:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:17.173128
Title: SEAlign: Alignment Training for Software Engineering Agent
Title（参考訳）: SEAlign: ソフトウェアエンジニアリングエージェントのアライメントトレーニング
Authors: Kechi Zhang, Huangzhao Zhang, Ge Li, Jinliang You, Jia Li, Yunfei Zhao, Zhi Jin,
Abstract要約: コード生成モデルと現実世界のソフトウェア開発タスクのギャップを埋めるため、SEAlignを提案する。我々は,HumanEvalFix,SWE-Bench-Lite,SWE-Bench-Verifiedの3つの標準エージェントベンチマークでSEAlignを評価した。我々はSEAlignを使ってエージェントベースのソフトウェア開発プラットフォームを開発し、いくつかの小さなアプリケーションの開発をうまく自動化する。
参考スコア（独自算出の注目度）: 38.05820118124528
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in code generation models have demonstrated impressive capabilities in automating software development tasks, yet these models still struggle in real-world software engineering scenarios. Although current training methods, particularly post-training, excel at solving competitive programming problems, they fail to adequately prepare models for the complexities of practical software development. This misalignment raises the critical question: Are existing alignment training methods well suited for real-world software engineering tasks? In this study, we identify this issue and propose SEAlign, a novel alignment framework designed to bridge the gap between code generation models and real-world software development tasks. SEAlign leverages the unique characteristics of software engineering processes, including high-quality workflow steps, to enhance model capabilities. Our framework further employs Monte Carlo Tree Search for fine-grained alignment in multi-step decision processes, followed by preference optimization on critical actions to ensure models meet real-world requirements. We evaluate SEAlign on three standard agentic benchmarks for real-world software engineering, including HumanEvalFix, SWE-Bench-Lite, and SWE-Bench-Verified. Experimental results demonstrate state-of-the-art performance with minimal training overhead. In addition, we develop an agent-based software development platform using SEAlign, which successfully automates the creation of several small applications. Human evaluations of these applications highlight significant improvements in both task performance and user experience. Our findings underscore the potential of SEAlign to accelerate the adoption of large code models in real-world software development. We believe that this research makes a meaningful step towards fully automated software engineering.
Abstract（参考訳）: コード生成モデルの最近の進歩は、ソフトウェア開発タスクの自動化における印象的な能力を示しているが、これらのモデルは、実際のソフトウェアエンジニアリングシナリオで未だに苦戦している。現在のトレーニング手法、特にポストトレーニングは、競争力のあるプログラミング問題の解決に優れていますが、実用的なソフトウェア開発の複雑さのためのモデルを適切に準備することはできません。既存のアライメントトレーニングメソッドは、現実世界のソフトウェアエンジニアリングタスクに適していますか? 本研究では,コード生成モデルと実世界のソフトウェア開発タスクのギャップを埋める新しいアライメントフレームワークであるSEAlignを提案する。 SEAlignは、高品質なワークフローステップを含む、ソフトウェアエンジニアリングプロセスのユニークな特徴を活用して、モデル機能を強化します。我々のフレームワークはさらにモンテカルロ木探索を多段階決定プロセスにおけるきめ細かなアライメントに利用し、続いてモデルが実世界の要求を満たすことを保証するために重要な行動に対する好みの最適化を行う。我々は,HumanEvalFix,SWE-Bench-Lite,SWE-Bench-Verifiedの3つの標準エージェントベンチマークでSEAlignを評価した。実験結果は、トレーニングオーバーヘッドを最小限に抑えた最先端の性能を示す。さらに,SEAlignを用いたエージェントベースのソフトウェア開発プラットフォームを開発し,いくつかの小型アプリケーションの開発を成功裏に自動化する。これらのアプリケーションの人間による評価は、タスクパフォーマンスとユーザエクスペリエンスの両方において、大幅に改善されている。実世界のソフトウェア開発において,SEAlignが大規模コードモデルの採用を加速する可能性について検討した。この研究は、完全に自動化されたソフトウェアエンジニアリングへの重要な一歩だと私たちは信じています。

関連論文リスト

Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
SENAI: Towards Software Engineering Native Generative Artificial Intelligence [3.915435754274075]
本稿では,ソフトウェア工学の知識を大規模言語モデルに統合することについて議論する。本研究の目的は,LLMが単なる機能的精度を超えて生成タスクを実行できる新しい方向を提案することである。ソフトウェアエンジニアリングネイティブな生成モデルは、現在のモデルに存在する欠点を克服するだけでなく、現実世界のソフトウェアエンジニアリングを扱うことができる次世代の生成モデルへの道を開くでしょう。
論文参考訳（メタデータ） (2025-03-19T15:02:07Z)
Human-In-the-Loop Software Development Agents [12.830816751625829]
大規模言語モデル(LLM)ベースのソフトウェアエンジニアリングのためのマルチエージェントパラダイムを導入し、ソフトウェア開発タスクを自動的に解決する。本稿では,ソフトウェア開発のためのHuman-in-the-loop LLMベースのエージェントフレームワーク(HULA)を紹介する。私たちは社内使用のために、HULAフレームワークをAtlassianに設計、実装、デプロイしています。
論文参考訳（メタデータ） (2024-11-19T23:22:33Z)
Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement [62.94719119451089]
Lingma SWE-GPTシリーズは、現実世界のコード提出活動から学び、シミュレーションする。 Lingma SWE-GPT 72BはGitHubの30.20%の問題を解決する。
論文参考訳（メタデータ） (2024-11-01T14:27:16Z)
Next-Gen Software Engineering. Big Models for AI-Augmented Model-Driven Software Engineering [0.0]
本稿は、AIに強化されたソフトウェア工学の現状の概要を提供し、対応する分類学であるAI4SEを開発する。 SEにおけるAI支援ビッグデータのビジョンは、ソフトウェア開発の文脈において両方のアプローチに固有の利点を活かすことを目的としている。
論文参考訳（メタデータ） (2024-09-26T16:49:57Z)
Think-on-Process: Dynamic Process Generation for Collaborative Development of Multi-Agent System [13.65717444483291]
ToP (Think-on-Process) はソフトウェア開発のための動的プロセス生成フレームワークである。本フレームワークはGPT-3.5とGPT-4の動的プロセス生成能力を著しく向上させる。
論文参考訳（メタデータ） (2024-09-10T15:02:34Z)
Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文参考訳（メタデータ） (2024-06-24T15:45:22Z)
ChatDev: Communicative Agents for Software Development [84.90400377131962]
ChatDevはチャットを利用したソフトウェア開発フレームワークで、特別なエージェントがコミュニケーション方法についてガイドされる。これらのエージェントは、統一された言語ベースのコミュニケーションを通じて、設計、コーディング、テストフェーズに積極的に貢献する。
論文参考訳（メタデータ） (2023-07-16T02:11:34Z)
Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文参考訳（メタデータ） (2021-01-11T15:54:48Z)
Software Effort Estimation using parameter tuned Models [1.9336815376402716]
見積もりの正確さは、プロジェクトの失敗の理由です。ソフトウェア業界の最大の落とし穴は、ソフトウェア開発の急速に変化する性質であった。ソフトウェア製品の開発コストを正確に予測する有用なモデルの開発が必要です。
論文参考訳（メタデータ） (2020-08-25T15:18:59Z)
Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文参考訳（メタデータ） (2020-06-21T17:14:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。