論文の概要: SyncMind: Measuring Agent Out-of-Sync Recovery in Collaborative Software Engineering
- arxiv url: http://arxiv.org/abs/2502.06994v2
- Date: Mon, 09 Jun 2025 03:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:09.8413
- Title: SyncMind: Measuring Agent Out-of-Sync Recovery in Collaborative Software Engineering
- Title(参考訳): SyncMind: コラボレーションソフトウェアエンジニアリングにおけるエージェントのアウトオブシンク回復の測定
- Authors: Xuehang Guo, Xingyao Wang, Yangyi Chen, Sha Li, Chi Han, Manling Li, Heng Ji,
- Abstract要約: SyncMindは、ソフトウェア工学において、大きな言語モデル(LLM)エージェントが直面している非同期の問題を体系的に定義するフレームワークである。
SyncMindをベースとしたSyncBenchは,実世界のCSEで24,332のエージェントアウトオブシンクシナリオを特徴とするベンチマークです。
- 参考スコア(独自算出の注目度): 74.04271300772155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software engineering (SE) is increasingly collaborative, with developers working together on shared complex codebases. Effective collaboration in shared environments requires participants -- whether humans or AI agents -- to stay on the same page as their environment evolves. When a collaborator's understanding diverges from the current state -- what we term the out-of-sync challenge -- the collaborator's actions may fail, leading to integration issues. In this work, we introduce SyncMind, a framework that systematically defines the out-of-sync problem faced by large language model (LLM) agents in collaborative software engineering (CSE). Based on SyncMind, we create SyncBench, a benchmark featuring 24,332 instances of agent out-of-sync scenarios in real-world CSE derived from 21 popular GitHub repositories with executable verification tests. Experiments on SyncBench uncover critical insights into existing LLM agents' capabilities and limitations. Besides substantial performance gaps among agents (from Llama-3.1 agent <= 3.33% to Claude-3.5-Sonnet >= 28.18%), their consistently low collaboration willingness (<= 4.86%) suggests fundamental limitations of existing LLM in CSE. However, when collaboration occurs, it positively correlates with out-of-sync recovery success. Minimal performance differences in agents' resource-aware out-of-sync recoveries further reveal their significant lack of resource awareness and adaptability, shedding light on future resource-efficient collaborative systems. Code and data are openly available on our project website: https://xhguo7.github.io/SyncMind/.
- Abstract(参考訳): ソフトウェアエンジニアリング(SE)はますます協力的になり、開発者は共有された複雑なコードベースで協力するようになる。
共有環境における効果的なコラボレーションは、参加者(人間でもAIエージェントでも)が環境が進化するにつれて同じページに留まることを要求する。
共同作業者の理解が現在の状態 – いわゆる非同期的課題 – から逸脱すると,共同作業者の行動が失敗し,統合上の問題が発生します。
本研究では,協調ソフトウェア工学 (CSE) において,大規模言語モデル (LLM) エージェントが直面する外部同期問題を体系的に定義するフレームワーク SyncMind を紹介する。
SyncMindをベースとして、SyncBenchというベンチマークを作成しました。このベンチマークでは、実世界のCSEで24,332のエージェントアウトオブシンクシナリオが、実行可能な検証テストを備えた21のGitHubリポジトリから作成されています。
SyncBenchの実験では、既存のLLMエージェントの機能と制限に関する重要な洞察が明らかになった。
Llama-3.1 エージェント <= 3.33% から Claude-3.5-Sonnet >= 28.18% まで) のエージェント間の実質的なパフォーマンスギャップに加えて、一貫したコラボレーション意欲 (= 4.86%) は CSE における既存の LLM の基本的な限界を示唆している。
しかし、コラボレーションが発生した場合、それは、非同期リカバリの成功と肯定的に相関する。
エージェントのリソース・オブ・シンク・リカバリの最小性能差は、リソース認識と適応性の重大な欠如を明らかにし、将来のリソース効率の良い協調システムに光を当てる。
コードとデータは、プロジェクトのWebサイト(https://xhguo7.github.io/SyncMind/)で公開されています。
関連論文リスト
- EmCoop: A Framework and Benchmark for Embodied Cooperation Among LLM Agents [18.802912315746564]
EmCoopは、組み込みマルチエージェントシステムの協調を研究するためのベンチマークフレームワークである。
我々のフレームワークは、高レベルの認知層と低レベルのエンボディドインタラクション層を分離する。
コラボレーションの品質と障害モードを診断する,一般化可能なプロセスレベルのメトリクスを提案する。
論文 参考訳(メタデータ) (2026-02-27T22:28:33Z) - R2ComSync: Improving Code-Comment Synchronization with In-Context Learning and Reranking [14.480581715739975]
ICLベースのコード・コンメント同期手法であるR2ComSyncをRetrievalとRe-levelで拡張した。
大規模な実験は、R2ComSyncの他のアプローチに対する優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-10-24T02:48:59Z) - SCUBA: Salesforce Computer Use Benchmark [63.66753028386581]
SCUBAは、Salesforceプラットフォーム内の顧客関係管理(CRM)上のコンピュータ利用エージェントを評価するために設計されたベンチマークである。
SCUBAには、実際のユーザインタビューから派生した300のタスクインスタンスが含まれており、3つの主要なペルソナ、プラットフォーム管理者、セールス担当者、サービスエージェントで構成されている。
ゼロショット設定とデモ拡張設定の両方で、多様なエージェントのセットをベンチマークします。
論文 参考訳(メタデータ) (2025-09-30T16:48:49Z) - On the synchronization between Hugging Face pre-trained language models and their upstream GitHub repository [11.828311976126303]
事前訓練された言語モデル(PTLM)は、高度な自然言語処理(NLP)を持つ。
PTLMはアップストリームリポジトリ(GitHub、GHなど)のコードと環境スクリプトを使用してトレーニングされ、Hugging Face (HF)のような下流プラットフォーム経由で変種として配布される。
GHとHFのコーディネート開発は、不整合リリーススケジュール、一貫性のないバージョニング、PTLMバリアントの限定的な再利用といった課題を生んでいる。
論文 参考訳(メタデータ) (2025-08-13T19:45:09Z) - SWE-Bench-CL: Continual Learning for Coding Agents [0.0]
SWE-Bench-CLは、人間検証されたSWE-Bench検証データセット上に構築された、新しい連続学習ベンチマークである。
GitHubのイシューを、自然リポジトリの進化を反映した時系列順序に整理することで、SWE-Bench-CLは、エージェントのエクスペリエンスを蓄積する能力を直接評価できる。
論文 参考訳(メタデータ) (2025-06-13T07:11:14Z) - SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。
パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。
SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-07T19:44:09Z) - SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs [10.70881967278009]
本稿では,現実的な検証可能な,プロセス対応のバグフィックスデータセットをリポジトリレベルで合成するフレームワークであるSWE- Synthを紹介する。
手作業で収集したデータセットと比較して、文脈的豊かさと正確さを保ちながら、最小限の人的労力でスケールする。
この結果から,APRとソフトウェア工学の自動化の最先端を推し進めるために,人工エージェント生成データの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-20T22:37:43Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents [106.87436596397816]
大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。
専門知識を活かしたフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。
実験により、DEAが指導するエージェント委員会が、最高のエージェントのパフォーマンスを大きなマージンで上回ることが可能であることが示されている。
論文 参考訳(メタデータ) (2024-08-13T17:50:28Z) - Multi-Agent Software Development through Cross-Team Collaboration [30.88149502999973]
ソフトウェア開発のためのスケーラブルなマルチチームフレームワークである、クロスチームコラボレーション(CTC)を紹介します。
CTCは、組織されたチームがさまざまな決定を共同で提案し、洞察とコミュニケーションすることを可能にする。
その結果,最先端のベースラインに比べて品質が顕著に向上した。
論文 参考訳(メタデータ) (2024-06-13T10:18:36Z) - Federated Contextual Cascading Bandits with Asynchronous Communication
and Heterogeneous Users [95.77678166036561]
繊細な通信プロトコルを用いたUPB型アルゴリズムを提案する。
同期フレームワークで達成されたものと同等のサブ線形後悔境界を与えます。
合成および実世界のデータセットに関する実証評価は、後悔と通信コストの観点から、我々のアルゴリズムの優れた性能を検証する。
論文 参考訳(メタデータ) (2024-02-26T05:31:14Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Efficient and Light-Weight Federated Learning via Asynchronous
Distributed Dropout [22.584080337157168]
非同期学習プロトコルは最近、特にフェデレートラーニング(FL)設定において注目を集めている。
分散環境でデバイスの不均一性を処理するためにドロップアウト正規化を利用する新しい非同期FLフレームワークである textttAsyncDrop を提案する。
全体として、textttAsyncDropは、最先端の非同期メソッドと比較してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-10-28T13:00:29Z) - Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep
Learning [10.196574441542646]
Gradient Descent(SGD)は、分散クラスタでディープニューラルネットワークをトレーニングする事実上の方法となっている。
トレーニングスループットとモデルの精度を決定する上で重要な要因はパラメータ同期プロトコルの選択である。
本稿では、BSPとASP.NETの両方の利点を利用するハイブリッド同期アプローチを設計する。
論文 参考訳(メタデータ) (2021-04-16T20:49:28Z) - A Cordial Sync: Going Beyond Marginal Policies for Multi-Agent Embodied
Tasks [111.34055449929487]
エージェントが協力して家具をリビングルームに移動させるという,新しいタスクFurnMoveを紹介した。
既存のタスクとは異なり、FurnMoveはエージェントが各タイミングで調整する必要がある。
既存の分散化されたアクションサンプリング手順は、表現力のある共同アクションポリシーを許さない。
SynC-policiesとCORDIALを用いて、我々のエージェントはFurnMoveで58%の完成率を達成する。
論文 参考訳(メタデータ) (2020-07-09T17:59:57Z) - DS-Sync: Addressing Network Bottlenecks with Divide-and-Shuffle
Synchronization for Distributed DNN Training [15.246142393381488]
本稿では,分散DNN訓練における収束精度を犠牲にすることなく,通信効率を向上する新たな分割・シャッフル同期(DS-Sync)を提案する。
DS-Syncは同じ精度を維持しつつ、既存のソリューションでエンドツーエンドのトレーニング時間を最大94%改善できることを示す。
論文 参考訳(メタデータ) (2020-07-07T09:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。