論文の概要: TOM-SWE: User Mental Modeling For Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2510.21903v1
- Date: Fri, 24 Oct 2025 16:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.700111
- Title: TOM-SWE: User Mental Modeling For Software Engineering Agents
- Title(参考訳): TOM-SWE: ソフトウェアエンジニアリングエージェントのためのユーザメンタルモデリング
- Authors: Xuhui Zhou, Valerie Chen, Zora Zhiruo Wang, Graham Neubig, Maarten Sap, Xingyao Wang,
- Abstract要約: ToM-SWEは、プライマリ・ソフトウェア・エンジニアリング(SWE)エージェントとライトウェイト・オブ・ミンド(ToM)パートナーエージェントを組み合わせたデュアルエージェントアーキテクチャである。
ToM-SWEは、ユーザー目標、制約、およびインストラクションとインタラクション履歴から好みを推測する。
2つのソフトウェアエンジニアリングベンチマークでは、ToM-SWEはタスクの成功率とユーザの満足度を改善する。
- 参考スコア(独自算出の注目度): 75.28749912645127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in coding agents have made them capable of planning, editing, running, and testing complex code bases. Despite their growing ability in coding tasks, these systems still struggle to infer and track user intent, especially when instructions are underspecified or context-dependent. To bridge this gap, we introduce ToM-SWE, a dual-agent architecture that pairs a primary software-engineering (SWE) agent with a lightweight theory-of-mind (ToM) partner agent dedicated to modeling the user's mental state. The ToM agent infers user goals, constraints, and preferences from instructions and interaction history, maintains a \textbf{persistent memory} of the user, and provides user-related suggestions to the SWE agent. In two software engineering benchmarks (ambiguous SWE-bench and stateful SWE-bench), ToM-SWE improves task success rates and user satisfaction. Notably, on the stateful SWE benchmark, a newly introduced evaluation that provides agents with a user simulator along with previous interaction histories, ToM-SWE achieves a substantially higher task success rate of 59.7\% compared to 18.1\% for OpenHands, a state-of-the-art SWE agent. Furthermore, in a three-week study with professional developers using ToM-SWE in their daily work, participants found it useful 86\% of the time, underscoring the value of stateful user modeling for practical coding agents.
- Abstract(参考訳): コーディングエージェントの最近の進歩により、複雑なコードベースの計画、編集、実行、テストが可能になった。
コーディングタスクの能力の増大にもかかわらず、これらのシステムはユーザー意図の推測と追跡に苦慮している。
このギャップを埋めるために、ユーザ精神状態のモデリングに特化した、プライマリ・ソフトウェア・エンジニアリング(SWE)エージェントと軽量な理論・オブ・ミンド(ToM)パートナエージェントを組み合わせたデュアルエージェントアーキテクチャであるToM-SWEを紹介する。
ToMエージェントは、命令やインタラクション履歴からユーザ目標、制約、嗜好を推測し、ユーザの‘textbf{persistent memory}’を維持し、SWEエージェントにユーザ関連の提案を提供する。
2つのソフトウェアエンジニアリングベンチマーク(あいまいなSWEベンチとステートフルなSWEベンチ)では、ToM-SWEはタスクの成功率とユーザの満足度を改善する。
特に、最新のSWEベンチマークでは、エージェントに以前のインタラクション履歴と共にユーザーシミュレータを提供する新たな評価として、ToM-SWEは、最先端のSWEエージェントであるOpenHandsの18.1\%に対して、59.7\%のタスク成功率を達成した。
さらに、ToM-SWEを日々の作業で使用するプロの開発者を対象に、3週間にわたる調査で、参加者は、実用的なコーディングエージェントに対するステートフルなユーザモデリングの価値を強調し、その86%の時間で有効であることが判明した。
関連論文リスト
- AgentStepper: Interactive Debugging of Software Development Agents [14.265317773238529]
本稿では,ソフトウェアエンジニアリングエージェントのための対話型デバッガであるAgentStepperを紹介する。
AgentStepperは、LLM、エージェントプログラム、ツール間の構造化された会話としてトラジェクトリを表す。
ブレークポイント、ステップワイズ実行、プロンプトとツール呼び出しのライブ編集、中間リポジトリレベルのコード変更のキャプチャと表示をサポートする。
論文 参考訳(メタデータ) (2026-02-06T10:44:09Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。
パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。
テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文 参考訳(メタデータ) (2025-06-06T17:29:49Z) - Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.253353551910404]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。
本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。
Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-04-01T15:40:27Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。