論文の概要: From Correctness to Collaboration: Toward a Human-Centered Framework for Evaluating AI Agent Behavior in Software Engineering
- arxiv url: http://arxiv.org/abs/2512.23844v1
- Date: Mon, 29 Dec 2025 20:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.198184
- Title: From Correctness to Collaboration: Toward a Human-Centered Framework for Evaluating AI Agent Behavior in Software Engineering
- Title(参考訳): 正しさからコラボレーションへ:ソフトウェア工学におけるAIエージェントの振る舞いを評価するための人間中心のフレームワークを目指して
- Authors: Tao Dong, Harini Sampath, Ja Young Lee, Sherry Y. Shi, Andrew Macvean,
- Abstract要約: 現在のベンチマークでは、コードの正確性に重点を置いているが、人間とAIのパートナーシップを成功させる上で欠かせない、対話的な振る舞いを捉えていない。
本稿では,エンタープライズソフトウェア工学における望ましいエージェント行動の基礎的分類について述べる。
また、コンテキスト適応行動(CAB)フレームワークを導入します。
- 参考スコア(独自算出の注目度): 7.402388519535592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) evolve from code generators into collaborative partners for software engineers, our methods for evaluation are lagging. Current benchmarks, focused on code correctness, fail to capture the nuanced, interactive behaviors essential for successful human-AI partnership. To bridge this evaluation gap, this paper makes two core contributions. First, we present a foundational taxonomy of desirable agent behaviors for enterprise software engineering, derived from an analysis of 91 sets of user-defined agent rules. This taxonomy defines four key expectations of agent behavior: Adhere to Standards and Processes, Ensure Code Quality and Reliability, Solving Problems Effectively, and Collaborating with the User. Second, recognizing that these expectations are not static, we introduce the Context-Adaptive Behavior (CAB) Framework. This emerging framework reveals how behavioral expectations shift along two empirically-derived axes: the Time Horizon (from immediate needs to future ideals), established through interviews with 15 expert engineers, and the Type of Work (from enterprise production to rapid prototyping, for example), identified through a prompt analysis of a prototyping agent. Together, these contributions offer a human-centered foundation for designing and evaluating the next generation of AI agents, moving the field's focus from the correctness of generated code toward the dynamics of true collaborative intelligence.
- Abstract(参考訳): 大規模言語モデル(LLM)がコードジェネレータからソフトウェアエンジニアの協力パートナーへと進化するにつれ、評価方法が遅れています。
現在のベンチマークは、コードの正確性に重点を置いているが、人間とAIのパートナーシップを成功させる上で欠かせない、対話的な振る舞いを捉えていない。
この評価ギャップを埋めるために,本稿では2つのコアコントリビューションについて述べる。
まず,91組のユーザ定義エージェントルールの分析から,エンタープライズソフトウェア工学において望ましいエージェント動作の基本的な分類法を提案する。
この分類では、エージェントの振る舞いに対する4つの重要な期待を定義している。
次に、これらの期待が静的でないことを認識して、コンテキスト適応行動(CAB)フレームワークを導入します。
この新たなフレームワークは、タイムホライゾン(即時要求から将来の理想へと)と、プロトタイピングエージェントの迅速な分析によって特定された作業タイプ(例えば、企業生産から迅速なプロトタイピングまで)という、2つの経験的起源の軸に沿って、行動の期待がどのようにシフトするかを明らかにします。
これらの貢献によって、次世代のAIエージェントを設計、評価するための人間中心の基盤が提供され、生成したコードの正しさから真のコラボレーティブインテリジェンス(コラボレーティブインテリジェンス)のダイナミクスへとフィールドの焦点を移す。
関連論文リスト
- LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Agentsway -- Software Development Methodology for AI Agents-based Teams [4.226647687395254]
Agentswayは、AIエージェントが一流の協力者として機能するエコシステム向けに設計された、新しいソフトウェア開発フレームワークである。
このフレームワークは、計画、プロンプト、コーディング、テスト、微調整エージェントの異なる役割を定義している。
Agentswayは、次世代のAIネイティブで自己改善型のソフトウェア開発方法論に向けた基本的なステップである。
論文 参考訳(メタデータ) (2025-10-26T11:58:42Z) - A Survey of Vibe Coding with Large Language Models [93.88284590533242]
視覚符号化(Vibe Coding)は、開発者が成果観察を通じてAI生成の実装を検証する開発手法である。
変革の可能性にもかかわらず、この創発的パラダイムの有効性は未解明のままである。
この調査は、大規模な言語モデルによるVibe Codingの総合的かつ体系的なレビューを初めて提供する。
論文 参考訳(メタデータ) (2025-10-14T11:26:56Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - Agentic Software Engineering: Foundational Pillars and a Research Roadmap [15.059942573311481]
Agentic Software Engineering (SE 3.0)は、インテリジェントなエージェントが複雑な目標指向のSE目標を達成することを任務とする新しい時代を表す。
本稿では,SEの基盤となる柱のいくつかを概説する,構造化エージェントソフトウェア工学(SASE)のビジョンについて述べる。
論文 参考訳(メタデータ) (2025-09-07T21:40:10Z) - AI Agentic Programming: A Survey of Techniques, Challenges, and Opportunities [8.086360127362815]
大規模言語モデル(LLM)ベースのコーディングエージェントは、コンパイラ、デバッガ、バージョン管理システムなどのツールを自律的に計画し、実行し、操作する。
従来のコード生成とは異なり、これらのエージェントは目標を分解し、多段階プロセスをコーディネートし、フィードバックに基づいて適応し、ソフトウェア開発のプラクティスを再構築する。
論文 参考訳(メタデータ) (2025-08-15T00:14:31Z) - Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study [15.97770416681533]
ソフトウェアエンジニアリングエージェント(SWEエージェント)は、ユーザの入力を解釈し、環境フィードバックに応答することで、自律的に動作する。
本稿では,SWEエージェントの動作を,実行トレースのレンズを通してシステマティックに解析する。
論文 参考訳(メタデータ) (2025-06-10T00:41:54Z) - Vibe Coding vs. Agentic Coding: Fundamentals and Practical Implications of Agentic AI [0.36868085124383626]
レビューでは、AI支援ソフトウェア開発の新たなパラダイムとして、バイブコーディングとエージェントコーディングの2つを包括的に分析している。
Vibeのコーディングは、インプットベースで対話的なインタラクションを通じて、直感的で、ループ内の人間間インタラクションを強調する。
エージェントコーディングは、最小限の介入でタスクを計画、実行、テスト、反復できる目標駆動エージェントを通じて、自律的なソフトウェア開発を可能にする。
論文 参考訳(メタデータ) (2025-05-26T03:00:21Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。