Fugu-MT 論文翻訳(概要): SyncMind: Measuring Agent Out-of-Sync Recovery in Collaborative Software Engineering

論文の概要: SyncMind: Measuring Agent Out-of-Sync Recovery in Collaborative Software Engineering

arxiv url: http://arxiv.org/abs/2502.06994v1
Date: Mon, 10 Feb 2025 19:38:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:47.85164
Title: SyncMind: Measuring Agent Out-of-Sync Recovery in Collaborative Software Engineering
Title（参考訳）: SyncMind: コラボレーションソフトウェアエンジニアリングにおけるエージェントのアウトオブシンク回復の測定
Authors: Xuehang Guo, Xingyao Wang, Yangyi Chen, Sha Li, Chi Han, Manling Li, Heng Ji,
Abstract要約: SyncMindは、ソフトウェア工学において、大きな言語モデル(LLM)エージェントが直面している非同期の問題を体系的に定義するフレームワークである。 SyncMindをベースとしたSyncBenchは,実世界のCSEで24,332のエージェントアウトオブシンクシナリオを特徴とするベンチマークです。
参考スコア（独自算出の注目度）: 74.04271300772155
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software engineering (SE) is increasingly collaborative, with developers working together on shared complex codebases. Effective collaboration in shared environments requires participants -- whether humans or AI agents -- to stay on the same page as their environment evolves. When a collaborator's understanding diverges from the current state -- what we term the out-of-sync challenge -- the collaborator's actions may fail, leading to integration issues. In this work, we introduce SyncMind, a framework that systematically defines the out-of-sync problem faced by large language model (LLM) agents in collaborative software engineering (CSE). Based on SyncMind, we create SyncBench, a benchmark featuring 24,332 instances of agent out-of-sync scenarios in real-world CSE derived from 21 popular GitHub repositories with executable verification tests. Experiments on SyncBench uncover critical insights into existing LLM agents' capabilities and limitations. Besides substantial performance gaps among agents (from Llama-3.1 agent <= 3.33% to Claude-3.5-Sonnet >= 28.18%), their consistently low collaboration willingness (<= 4.86%) suggests fundamental limitations of existing LLM in CSE. However, when collaboration occurs, it positively correlates with out-of-sync recovery success. Minimal performance differences in agents' resource-aware out-of-sync recoveries further reveal their significant lack of resource awareness and adaptability, shedding light on future resource-efficient collaborative systems. Code and data are openly available on our project website: https://xhguo7.github.io/SyncMind/.
Abstract（参考訳）: ソフトウェアエンジニアリング(SE)はますます協力的になり、開発者は共有された複雑なコードベースで協力するようになる。共有環境における効果的なコラボレーションは、参加者(人間でもAIエージェントでも)が環境が進化するにつれて同じページに留まることを要求する。共同作業者の理解が現在の状態 – いわゆる非同期的課題 – から逸脱すると,共同作業者の行動が失敗し,統合上の問題が発生します。本研究では,協調ソフトウェア工学 (CSE) において,大規模言語モデル (LLM) エージェントが直面する外部同期問題を体系的に定義するフレームワーク SyncMind を紹介する。 SyncMindをベースとして、SyncBenchというベンチマークを作成しました。このベンチマークでは、実世界のCSEで24,332のエージェントアウトオブシンクシナリオが、実行可能な検証テストを備えた21のGitHubリポジトリから作成されています。 SyncBenchの実験では、既存のLLMエージェントの機能と制限に関する重要な洞察が明らかになった。 Llama-3.1 エージェント <= 3.33% から Claude-3.5-Sonnet >= 28.18% まで) のエージェント間の実質的なパフォーマンスギャップに加えて、一貫したコラボレーション意欲 (= 4.86%) は CSE における既存の LLM の基本的な限界を示唆している。しかし、コラボレーションが発生した場合、それは、非同期リカバリの成功と肯定的に相関する。エージェントのリソース・オブ・シンク・リカバリの最小性能差は、リソース認識と適応性の重大な欠如を明らかにし、将来のリソース効率の良い協調システムに光を当てる。コードとデータは、プロジェクトのWebサイト(https://xhguo7.github.io/SyncMind/)で公開されています。

関連論文リスト

SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs [10.70881967278009]
本稿では,現実的な検証可能な,プロセス対応のバグフィックスデータセットをリポジトリレベルで合成するフレームワークであるSWE- Synthを紹介する。手作業で収集したデータセットと比較して、文脈的豊かさと正確さを保ちながら、最小限の人的労力でスケールする。この結果から,APRとソフトウェア工学の自動化の最先端を推し進めるために,人工エージェント生成データの可能性を強調した。
論文参考訳（メタデータ） (2025-04-20T22:37:43Z)
ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。 ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。 ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文参考訳（メタデータ） (2024-09-02T17:44:10Z)
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents [106.87436596397816]
大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。専門知識を活かしたフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。実験により、DEAが指導するエージェント委員会が、最高のエージェントのパフォーマンスを大きなマージンで上回ることが可能であることが示されている。
論文参考訳（メタデータ） (2024-08-13T17:50:28Z)
Multi-Agent Software Development through Cross-Team Collaboration [30.88149502999973]
ソフトウェア開発のためのスケーラブルなマルチチームフレームワークである、クロスチームコラボレーション(CTC)を紹介します。 CTCは、組織されたチームがさまざまな決定を共同で提案し、洞察とコミュニケーションすることを可能にする。その結果,最先端のベースラインに比べて品質が顕著に向上した。
論文参考訳（メタデータ） (2024-06-13T10:18:36Z)
Federated Contextual Cascading Bandits with Asynchronous Communication and Heterogeneous Users [95.77678166036561]
繊細な通信プロトコルを用いたUPB型アルゴリズムを提案する。同期フレームワークで達成されたものと同等のサブ線形後悔境界を与えます。合成および実世界のデータセットに関する実証評価は、後悔と通信コストの観点から、我々のアルゴリズムの優れた性能を検証する。
論文参考訳（メタデータ） (2024-02-26T05:31:14Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)
Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep Learning [10.196574441542646]
Gradient Descent(SGD)は、分散クラスタでディープニューラルネットワークをトレーニングする事実上の方法となっている。トレーニングスループットとモデルの精度を決定する上で重要な要因はパラメータ同期プロトコルの選択である。本稿では、BSPとASP.NETの両方の利点を利用するハイブリッド同期アプローチを設計する。
論文参考訳（メタデータ） (2021-04-16T20:49:28Z)
A Cordial Sync: Going Beyond Marginal Policies for Multi-Agent Embodied Tasks [111.34055449929487]
エージェントが協力して家具をリビングルームに移動させるという,新しいタスクFurnMoveを紹介した。既存のタスクとは異なり、FurnMoveはエージェントが各タイミングで調整する必要がある。既存の分散化されたアクションサンプリング手順は、表現力のある共同アクションポリシーを許さない。 SynC-policiesとCORDIALを用いて、我々のエージェントはFurnMoveで58%の完成率を達成する。
論文参考訳（メタデータ） (2020-07-09T17:59:57Z)
DS-Sync: Addressing Network Bottlenecks with Divide-and-Shuffle Synchronization for Distributed DNN Training [15.246142393381488]
本稿では,分散DNN訓練における収束精度を犠牲にすることなく,通信効率を向上する新たな分割・シャッフル同期(DS-Sync)を提案する。 DS-Syncは同じ精度を維持しつつ、既存のソリューションでエンドツーエンドのトレーニング時間を最大94%改善できることを示す。
論文参考訳（メタデータ） (2020-07-07T09:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。