論文の概要: Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions
- arxiv url: http://arxiv.org/abs/2511.21380v1
- Date: Wed, 26 Nov 2025 13:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.112372
- Title: Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions
- Title(参考訳): ソフトウェア工学におけるデータセット適応のためのマルチエージェントシステム:能力,限界,今後の方向性
- Authors: Jingyi Chen, Xiaoyan Guo, Songqiang Chen, Shing-Chi Cheung, Jiasi Shen,
- Abstract要約: 本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
- 参考スコア(独自算出の注目度): 8.97512410819274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automating the adaptation of software engineering (SE) research artifacts across datasets is essential for scalability and reproducibility, yet it remains largely unstudied. Recent advances in large language model (LLM)-based multi-agent systems, such as GitHub Copilot's agent mode, promise to automate complex development workflows through coordinated reasoning, code generation, and tool interaction. This paper presents the first empirical study on how state-of-the-art multi-agent systems perform in dataset adaptation tasks. We evaluate Copilot, backed by GPT-4.1 and Claude Sonnet 4, on adapting SE research artifacts from benchmark repositories including ROCODE and LogHub2.0. Through a five-stage evaluation pipeline (file comprehension, code editing, command generation, validation, and final execution), we measure success rates, analyze failure patterns, and assess prompt-based interventions designed to enhance agent performance. Results show that current systems can identify key files and generate partial adaptations but rarely produce functionally correct implementations. Prompt-level interventions, especially providing execution error messages and reference code, substantially improve structural similarity to ground truth (from 7.25% to 67.14%), highlighting the importance of contextual and feedback-driven guidance. Our findings reveal both the promise and limitations of today's multi-agent LLM systems for dataset adaptation, and suggest concrete directions for building more reliable, self-correcting agents in future SE research.
- Abstract(参考訳): データセットにまたがってソフトウェア工学(SE)研究成果物の適応を自動化することは、スケーラビリティと再現性に不可欠だが、ほとんど研究されていない。
GitHub CopilotのエージェントモードのようなLLMベースのマルチエージェントシステムの最近の進歩は、コーディネート推論、コード生成、ツールインタラクションを通じて複雑な開発ワークフローを自動化することを約束している。
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
GPT-4.1 と Claude Sonnet 4 が支援する Copilot を ROCODE や LogHub2.0 などのベンチマークリポジトリから SE 研究成果物に適応させることで評価する。
5段階評価パイプライン(ファイル理解、コード編集、コマンド生成、検証、最終実行)を通じて、成功率を測定し、失敗パターンを分析し、エージェントのパフォーマンスを高めるために設計されたプロンプトベースの介入を評価する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、機能的に正しい実装を生成することは滅多にない。
プロンプトレベルの介入、特に実行エラーメッセージと参照コードの提供は、文脈的およびフィードバック駆動のガイダンスの重要性を強調し、基礎的真実(7.25%から67.14%)と構造的類似性を大幅に改善する。
本研究は, データセット適応のためのマルチエージェントLLMシステムの実現可能性と限界を明らかにし, 今後のSE研究において, より信頼性の高い自己修正エージェントを構築するための具体的な方向性を提案する。
関連論文リスト
- A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - ResearchCodeAgent: An LLM Multi-Agent System for Automated Codification of Research Methodologies [16.90884865239373]
本研究では,研究方法論の体系化を自動化する新しいマルチエージェントシステムであるResearchCodeAgentを紹介する。
このシステムは、ハイレベルな研究概念と実践的な実装のギャップを埋める。
ResearchCodeAgentは、研究実施プロセスに向けた重要なステップであり、機械学習研究のペースを加速する可能性がある。
論文 参考訳(メタデータ) (2025-04-28T07:18:45Z) - MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification [5.666070277424383]
MAG-Vは、顧客のクエリを模倣する質問のデータセットを生成するフレームワークである。
我々の合成データは、実際の顧客クエリにおけるエージェントのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-11-28T19:36:11Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。