論文の概要: TOM-SWE: User Mental Modeling For Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2510.21903v1
- Date: Fri, 24 Oct 2025 16:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.700111
- Title: TOM-SWE: User Mental Modeling For Software Engineering Agents
- Title(参考訳): TOM-SWE: ソフトウェアエンジニアリングエージェントのためのユーザメンタルモデリング
- Authors: Xuhui Zhou, Valerie Chen, Zora Zhiruo Wang, Graham Neubig, Maarten Sap, Xingyao Wang,
- Abstract要約: ToM-SWEは、プライマリ・ソフトウェア・エンジニアリング(SWE)エージェントとライトウェイト・オブ・ミンド(ToM)パートナーエージェントを組み合わせたデュアルエージェントアーキテクチャである。
ToM-SWEは、ユーザー目標、制約、およびインストラクションとインタラクション履歴から好みを推測する。
2つのソフトウェアエンジニアリングベンチマークでは、ToM-SWEはタスクの成功率とユーザの満足度を改善する。
- 参考スコア(独自算出の注目度): 75.28749912645127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in coding agents have made them capable of planning, editing, running, and testing complex code bases. Despite their growing ability in coding tasks, these systems still struggle to infer and track user intent, especially when instructions are underspecified or context-dependent. To bridge this gap, we introduce ToM-SWE, a dual-agent architecture that pairs a primary software-engineering (SWE) agent with a lightweight theory-of-mind (ToM) partner agent dedicated to modeling the user's mental state. The ToM agent infers user goals, constraints, and preferences from instructions and interaction history, maintains a \textbf{persistent memory} of the user, and provides user-related suggestions to the SWE agent. In two software engineering benchmarks (ambiguous SWE-bench and stateful SWE-bench), ToM-SWE improves task success rates and user satisfaction. Notably, on the stateful SWE benchmark, a newly introduced evaluation that provides agents with a user simulator along with previous interaction histories, ToM-SWE achieves a substantially higher task success rate of 59.7\% compared to 18.1\% for OpenHands, a state-of-the-art SWE agent. Furthermore, in a three-week study with professional developers using ToM-SWE in their daily work, participants found it useful 86\% of the time, underscoring the value of stateful user modeling for practical coding agents.
- Abstract(参考訳): コーディングエージェントの最近の進歩により、複雑なコードベースの計画、編集、実行、テストが可能になった。
コーディングタスクの能力の増大にもかかわらず、これらのシステムはユーザー意図の推測と追跡に苦慮している。
このギャップを埋めるために、ユーザ精神状態のモデリングに特化した、プライマリ・ソフトウェア・エンジニアリング(SWE)エージェントと軽量な理論・オブ・ミンド(ToM)パートナエージェントを組み合わせたデュアルエージェントアーキテクチャであるToM-SWEを紹介する。
ToMエージェントは、命令やインタラクション履歴からユーザ目標、制約、嗜好を推測し、ユーザの‘textbf{persistent memory}’を維持し、SWEエージェントにユーザ関連の提案を提供する。
2つのソフトウェアエンジニアリングベンチマーク(あいまいなSWEベンチとステートフルなSWEベンチ)では、ToM-SWEはタスクの成功率とユーザの満足度を改善する。
特に、最新のSWEベンチマークでは、エージェントに以前のインタラクション履歴と共にユーザーシミュレータを提供する新たな評価として、ToM-SWEは、最先端のSWEエージェントであるOpenHandsの18.1\%に対して、59.7\%のタスク成功率を達成した。
さらに、ToM-SWEを日々の作業で使用するプロの開発者を対象に、3週間にわたる調査で、参加者は、実用的なコーディングエージェントに対するステートフルなユーザモデリングの価値を強調し、その86%の時間で有効であることが判明した。
関連論文リスト
- How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。
パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。
テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文 参考訳(メタデータ) (2025-06-06T17:29:49Z) - Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.253353551910404]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。
本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。
Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-04-01T15:40:27Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。