論文の概要: How can we assess human-agent interactions? Case studies in software agent design
- arxiv url: http://arxiv.org/abs/2510.09801v1
- Date: Fri, 10 Oct 2025 19:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.630271
- Title: How can we assess human-agent interactions? Case studies in software agent design
- Title(参考訳): エージェントインタラクションの評価方法 : ソフトウェアエージェント設計におけるケーススタディ
- Authors: Valerie Chen, Rohit Malhotra, Xingyao Wang, Juan Michelini, Xuhui Zhou, Aditya Bharat Soni, Hoang H. Tran, Calvin Smith, Ameet Talwalkar, Graham Neubig,
- Abstract要約: 我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
- 参考スコア(独自算出の注目度): 52.953425368394306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-powered agents are both a promising new technology and a source of complexity, where choices about models, tools, and prompting can affect their usefulness. While numerous benchmarks measure agent accuracy across domains, they mostly assume full automation, failing to represent the collaborative nature of real-world use cases. In this paper, we make two major steps towards the rigorous assessment of human-agent interactions. First, we propose PULSE, a framework for more efficient human-centric evaluation of agent designs, which comprises collecting user feedback, training an ML model to predict user satisfaction, and computing results by combining human satisfaction ratings with model-generated pseudo-labels. Second, we deploy the framework on a large-scale web platform built around the open-source software agent OpenHands, collecting in-the-wild usage data across over 15k users. We conduct case studies around how three agent design decisions -- choice of LLM backbone, planning strategy, and memory mechanisms -- impact developer satisfaction rates, yielding practical insights for software agent design. We also show how our framework can lead to more robust conclusions about agent design, reducing confidence intervals by 40\% compared to a standard A/B test. Finally, we find substantial discrepancies between in-the-wild results and benchmark performance (e.g., the anti-correlation between results comparing claude-sonnet-4 and gpt-5), underscoring the limitations of benchmark-driven evaluation. Our findings provide guidance for evaluations of LLM agents with humans and identify opportunities for better agent designs.
- Abstract(参考訳): LLMを利用したエージェントは、将来性のある新しい技術であり、モデル、ツール、そしてプロンプトの選択がその有用性に影響を与える複雑さの源でもある。
多くのベンチマークがドメイン間でエージェントの正確性を測定するが、それらは主に完全な自動化を前提としており、現実世界のユースケースの協調的な性質を表現できない。
本稿では,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
まず,ユーザからのフィードバックを収集し,ユーザ満足度を予測するMLモデルをトレーニングし,人間の満足度評価とモデル生成の擬似ラベルを組み合わせて計算結果を算出する,より効率的なエージェント設計評価フレームワークであるPULSEを提案する。
第二に、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォーム上にフレームワークをデプロイし、15万以上のユーザを対象に、ウィジェット内での使用データを収集します。
3つのエージェント設計決定 -- LLMバックボーンの選択、計画戦略、メモリメカニズム -- が開発者の満足度にどのように影響し、ソフトウェアエージェント設計に実用的な洞察をもたらすか、ケーススタディを行います。
また、我々のフレームワークがエージェント設計に関してより堅牢な結論を導き、標準のA/Bテストと比較して信頼区間を40倍削減できることを示す。
最後に,この結果とベンチマーク性能(例えば,Claude-sonnet-4 と gpt-5 を比較した結果の相関関係)の間には,ベンチマークによる評価の限界が顕著であることがわかった。
本研究は,LLMエージェントをヒトと評価するためのガイダンスと,優れたエージェント設計の機会を明らかにするものである。
関連論文リスト
- Automating Data-Driven Modeling and Analysis for Engineering Applications using Large Language Model Agents [3.344730946122235]
本稿では,Large Language Model (LLM) エージェントを用いてデータ駆動モデリングと分析を自動化する革新的なパイプラインを提案する。
協調エージェントを特徴とするマルチエージェントシステムと、Reasoning and Acting(ReAct)パラダイムに基づく単一エージェントシステムである。
論文 参考訳(メタデータ) (2025-10-01T19:28:35Z) - AutoSCORE: Enhancing Automated Scoring with Multi-Agent Large Language Models via Structured Component Recognition [27.312190686305588]
大規模言語モデル(LLM)は、自動スコアリングにおいて大きな可能性を示している。
エンド・ツー・エンドのレーダとしての使用は、低い正確性、迅速な感度、限定的な解釈可能性、ルーリックなミスアライメントといった課題に直面している。
本稿では,多エージェント LLM フレームワークである AutoSCORE を提案する。
論文 参考訳(メタデータ) (2025-09-26T05:45:14Z) - PentestJudge: Judging Agent Behavior Against Operational Requirements [0.0]
PentestJudgeは、侵入テストエージェントの操作を評価するシステムである。
判定エージェントとして機能するモデルをいくつか評価し、最良のモデルがF1スコア0.83まで到達した。
論文 参考訳(メタデータ) (2025-08-04T21:52:50Z) - ToolComp: A Multi-Tool Reasoning & Process Supervision Benchmark [0.0]
マルチステップのツール使用推論を評価するためのベンチマークであるToolCompを紹介する。
ToolCompはモデルと人間のアノテータのコラボレーションによって開発されている。
我々は、結果教師付き報酬モデルとプロセス教師付き報酬モデルのパフォーマンスを比較するために、合成トレーニングデータを生成する。
論文 参考訳(メタデータ) (2025-01-02T15:10:52Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Designing AI-Agents with Personalities: A Psychometric Approach [2.854338743097065]
本稿では,定量的かつ心理学的に検証された個人性をAIエージェントに割り当てる手法を提案する。
3つの研究で実現可能性と限界を評価した。
論文 参考訳(メタデータ) (2024-10-25T01:05:04Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。