論文の概要: From Correctness to Collaboration: Toward a Human-Centered Framework for Evaluating AI Agent Behavior in Software Engineering
- arxiv url: http://arxiv.org/abs/2512.23844v1
- Date: Mon, 29 Dec 2025 20:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.198184
- Title: From Correctness to Collaboration: Toward a Human-Centered Framework for Evaluating AI Agent Behavior in Software Engineering
- Title(参考訳): 正しさからコラボレーションへ:ソフトウェア工学におけるAIエージェントの振る舞いを評価するための人間中心のフレームワークを目指して
- Authors: Tao Dong, Harini Sampath, Ja Young Lee, Sherry Y. Shi, Andrew Macvean,
- Abstract要約: 現在のベンチマークでは、コードの正確性に重点を置いているが、人間とAIのパートナーシップを成功させる上で欠かせない、対話的な振る舞いを捉えていない。
本稿では,エンタープライズソフトウェア工学における望ましいエージェント行動の基礎的分類について述べる。
また、コンテキスト適応行動(CAB)フレームワークを導入します。
- 参考スコア(独自算出の注目度): 7.402388519535592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) evolve from code generators into collaborative partners for software engineers, our methods for evaluation are lagging. Current benchmarks, focused on code correctness, fail to capture the nuanced, interactive behaviors essential for successful human-AI partnership. To bridge this evaluation gap, this paper makes two core contributions. First, we present a foundational taxonomy of desirable agent behaviors for enterprise software engineering, derived from an analysis of 91 sets of user-defined agent rules. This taxonomy defines four key expectations of agent behavior: Adhere to Standards and Processes, Ensure Code Quality and Reliability, Solving Problems Effectively, and Collaborating with the User. Second, recognizing that these expectations are not static, we introduce the Context-Adaptive Behavior (CAB) Framework. This emerging framework reveals how behavioral expectations shift along two empirically-derived axes: the Time Horizon (from immediate needs to future ideals), established through interviews with 15 expert engineers, and the Type of Work (from enterprise production to rapid prototyping, for example), identified through a prompt analysis of a prototyping agent. Together, these contributions offer a human-centered foundation for designing and evaluating the next generation of AI agents, moving the field's focus from the correctness of generated code toward the dynamics of true collaborative intelligence.
- Abstract(参考訳): 大規模言語モデル(LLM)がコードジェネレータからソフトウェアエンジニアの協力パートナーへと進化するにつれ、評価方法が遅れています。
現在のベンチマークは、コードの正確性に重点を置いているが、人間とAIのパートナーシップを成功させる上で欠かせない、対話的な振る舞いを捉えていない。
この評価ギャップを埋めるために,本稿では2つのコアコントリビューションについて述べる。
まず,91組のユーザ定義エージェントルールの分析から,エンタープライズソフトウェア工学において望ましいエージェント動作の基本的な分類法を提案する。
この分類では、エージェントの振る舞いに対する4つの重要な期待を定義している。
次に、これらの期待が静的でないことを認識して、コンテキスト適応行動(CAB)フレームワークを導入します。
この新たなフレームワークは、タイムホライゾン(即時要求から将来の理想へと)と、プロトタイピングエージェントの迅速な分析によって特定された作業タイプ(例えば、企業生産から迅速なプロトタイピングまで)という、2つの経験的起源の軸に沿って、行動の期待がどのようにシフトするかを明らかにします。
これらの貢献によって、次世代のAIエージェントを設計、評価するための人間中心の基盤が提供され、生成したコードの正しさから真のコラボレーティブインテリジェンス(コラボレーティブインテリジェンス)のダイナミクスへとフィールドの焦点を移す。
関連論文リスト
- ClarEval: A Benchmark for Evaluating Clarification Skills of Code Agents under Ambiguous Instructions [19.875754116636436]
ClarEvalは、人間のコミュニケーションのあいまいさをシミュレートすることで、エージェントの「協調的クオリティ」を評価するために設計されたフレームワークである。
この能力の定量化のために,Average Turnsが主導するメトリクススイートを提案し,コーダ(ATC)とキー質問カバレッジ(KQC)を明らかにする。
GPT-5-Coderのようなモデルはコーディングに優れていますが、効率的なパートナーシップに必要な戦略的コミュニケーションスキルは欠如しています。
論文 参考訳(メタデータ) (2026-02-27T01:10:27Z) - EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Agentsway -- Software Development Methodology for AI Agents-based Teams [4.226647687395254]
Agentswayは、AIエージェントが一流の協力者として機能するエコシステム向けに設計された、新しいソフトウェア開発フレームワークである。
このフレームワークは、計画、プロンプト、コーディング、テスト、微調整エージェントの異なる役割を定義している。
Agentswayは、次世代のAIネイティブで自己改善型のソフトウェア開発方法論に向けた基本的なステップである。
論文 参考訳(メタデータ) (2025-10-26T11:58:42Z) - A Survey of Vibe Coding with Large Language Models [93.88284590533242]
視覚符号化(Vibe Coding)は、開発者が成果観察を通じてAI生成の実装を検証する開発手法である。
変革の可能性にもかかわらず、この創発的パラダイムの有効性は未解明のままである。
この調査は、大規模な言語モデルによるVibe Codingの総合的かつ体系的なレビューを初めて提供する。
論文 参考訳(メタデータ) (2025-10-14T11:26:56Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - Agentic Software Engineering: Foundational Pillars and a Research Roadmap [15.059942573311481]
Agentic Software Engineering (SE 3.0)は、インテリジェントなエージェントが複雑な目標指向のSE目標を達成することを任務とする新しい時代を表す。
本稿では,SEの基盤となる柱のいくつかを概説する,構造化エージェントソフトウェア工学(SASE)のビジョンについて述べる。
論文 参考訳(メタデータ) (2025-09-07T21:40:10Z) - AI Agentic Programming: A Survey of Techniques, Challenges, and Opportunities [8.086360127362815]
大規模言語モデル(LLM)ベースのコーディングエージェントは、コンパイラ、デバッガ、バージョン管理システムなどのツールを自律的に計画し、実行し、操作する。
従来のコード生成とは異なり、これらのエージェントは目標を分解し、多段階プロセスをコーディネートし、フィードバックに基づいて適応し、ソフトウェア開発のプラクティスを再構築する。
論文 参考訳(メタデータ) (2025-08-15T00:14:31Z) - Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。
我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。
結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z) - Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study [15.97770416681533]
ソフトウェアエンジニアリングエージェント(SWEエージェント)は、ユーザの入力を解釈し、環境フィードバックに応答することで、自律的に動作する。
本稿では,SWEエージェントの動作を,実行トレースのレンズを通してシステマティックに解析する。
論文 参考訳(メタデータ) (2025-06-10T00:41:54Z) - Vibe Coding vs. Agentic Coding: Fundamentals and Practical Implications of Agentic AI [0.36868085124383626]
レビューでは、AI支援ソフトウェア開発の新たなパラダイムとして、バイブコーディングとエージェントコーディングの2つを包括的に分析している。
Vibeのコーディングは、インプットベースで対話的なインタラクションを通じて、直感的で、ループ内の人間間インタラクションを強調する。
エージェントコーディングは、最小限の介入でタスクを計画、実行、テスト、反復できる目標駆動エージェントを通じて、自律的なソフトウェア開発を可能にする。
論文 参考訳(メタデータ) (2025-05-26T03:00:21Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。