論文の概要: Same Outcomes, Different Journeys: A Trace-Level Framework for Comparing Human and GUI-Agent Behavior in Production Search Systems
- arxiv url: http://arxiv.org/abs/2604.07929v1
- Date: Thu, 09 Apr 2026 07:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.779193
- Title: Same Outcomes, Different Journeys: A Trace-Level Framework for Comparing Human and GUI-Agent Behavior in Production Search Systems
- Title(参考訳): 同じ成果、異なる旅路:生産探索システムにおける人的・GUI的行動の比較のためのトレースレベルフレームワーク
- Authors: Maria Movin, Claudia Hauff, Aron Henriksson, Panagiotis Papapetrou,
- Abstract要約: 本研究では, (i) タスクの成果と努力, (ii) クエリの定式化, (iii) インターフェース状態間のナビゲーションを比較したトレースレベルの評価フレームワークを提案する。
39人の参加者と最先端のGUIエージェントが10種類のマルチホップ検索タスクを行う実運用オーディオストリーミング検索アプリケーションにおいて、このフレームワークを制御された研究でインスタンス化する。
- 参考スコア(独自算出の注目度): 7.382907970058899
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM-driven GUI agents are increasingly used in production systems to automate workflows and simulate users for evaluation and optimization. Yet most GUI-agent evaluations emphasize task success and provide limited evidence on whether agents interact in human-like ways. We present a trace-level evaluation framework that compares human and agent behavior across (i) task outcome and effort, (ii) query formulation, and (iii) navigation across interface states. We instantiate the framework in a controlled study in a production audio-streaming search application, where 39 participants and a state-of-the-art GUI agent perform ten multi-hop search tasks. The agent achieves task success comparable to participants and generates broadly aligned queries, but follows systematically different navigation strategies: participants exhibit content-centric, exploratory behavior, while the agent is more search-centric and low-branching. These results show that outcome and query alignment do not imply behavioral alignment, motivating trace-level diagnostics when deploying GUI agents as proxies for users in production search systems.
- Abstract(参考訳): LLM駆動のGUIエージェントは、ワークフローの自動化や、評価と最適化のためにユーザをシミュレートするために、プロダクションシステムでますます使われている。
しかし、ほとんどのGUIエージェント評価はタスクの成功を強調し、エージェントが人間のような方法で相互作用するかどうかの限定的な証拠を提供する。
我々は,人的行動とエージェント的行動を比較したトレースレベルの評価フレームワークを提案する。
一 作業の成果及び努力
(ii)クエリの定式化、および
(iii) インターフェース状態間のナビゲーション。
39人の参加者と最先端のGUIエージェントが10種類のマルチホップ検索タスクを行う実運用オーディオストリーミング検索アプリケーションにおいて、このフレームワークを制御された研究でインスタンス化する。
エージェントは、参加者に匹敵するタスク成功を達成し、広範囲なクエリを生成するが、組織的に異なるナビゲーション戦略に従う: 参加者は、コンテンツ中心で探索的な振る舞いを示し、エージェントはより検索中心で、低ブランチである。
これらの結果から,GUIエージェントをユーザ用プロキシとして製品検索システムにデプロイする場合,結果とクエリアライメントは行動アライメントを示唆せず,トレースレベルの診断を動機付けることが示唆された。
関連論文リスト
- Learning to Retrieve from Agent Trajectories [72.8923565916533]
我々はエージェント間相互作用データから直接エージェント探索のための検索モデルを訓練すべきであると主張している。
エージェント・トラジェクトリからの学習を新たな訓練パラダイムとして導入し,マルチステップエージェントのインタラクションから指導を導出する。
本研究は,エージェント探索時代における検索の方向性を示すとともに,エージェントトラジェクトリを実用的でスケーラブルな監視源として強調するものである。
論文 参考訳(メタデータ) (2026-03-30T17:59:02Z) - Agentic Persona Control and Task State Tracking for Realistic User Simulation in Interactive Scenarios [0.0]
対話型シナリオにおける現実的で説明可能なユーザシミュレーションのための,新しいマルチエージェントフレームワークを提案する。
我々は、目標志向の会話において、人間の認知過程を反映するペルソナ制御とタスク状態追跡を採用する。
論文 参考訳(メタデータ) (2025-11-30T20:25:56Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - LLM-Guided Scenario-based GUI Testing [22.70111721644705]
本稿では,GUIのセマンティクスと文脈的関連性を理解するために,大規模言語モデルを活用するアプローチを提案する。
手動テストフェーズをシミュレートし,自動化するためにマルチエージェント協調を用いたシナリオベースGUIテストフレームワークであるScenGenを提案する。
論文 参考訳(メタデータ) (2025-06-05T14:27:40Z) - GUI Agents: A Survey [159.7656453000263]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。
GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文 参考訳(メタデータ) (2024-12-18T04:48:28Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。