論文の概要: AgentLens: Adaptive Visual Modalities for Human-Agent Interaction in Mobile GUI Agents
- arxiv url: http://arxiv.org/abs/2604.20279v2
- Date: Thu, 23 Apr 2026 03:36:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.043578
- Title: AgentLens: Adaptive Visual Modalities for Human-Agent Interaction in Mobile GUI Agents
- Title(参考訳): AgentLens:モバイルGUIエージェントにおけるヒューマンエージェントインタラクションのための適応型視覚モーダリティ
- Authors: Jeonghyeon Kim, Byeongjun Joung, Junwon Lee, Joohyung Lee, Taehoon Min, Sunjae Lee,
- Abstract要約: 本稿では,人間とエージェントのインタラクションにおいて3つの視覚的モダリティを適応的に利用する移動体GUIエージェントであるAgentLensを紹介する。
21名の被験者を対象にした対照研究では、AgentLensは85.7%の参加者に好まれ、高いユーザビリティを得た。
- 参考スコア(独自算出の注目度): 6.854690221358898
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mobile GUI agents can automate smartphone tasks by interacting directly with app interfaces, but how they should communicate with users during execution remains underexplored. Existing systems rely on two extremes: foreground execution, which maximizes transparency but prevents multitasking, and background execution, which supports multitasking but provides little visual awareness. Through iterative formative studies, we found that users prefer a hybrid model with just-in-time visual interaction, but the most effective visualization modality depends on the task. Motivated by this, we present AgentLens, a mobile GUI agent that adaptively uses three visual modalities during human-agent interaction: Full UI, Partial UI, and GenUI. AgentLens extends a standard mobile agent with adaptive communication actions and uses Virtual Display to enable background execution with selective visual overlays. In a controlled study with 21 participants, AgentLens was preferred by 85.7% of participants and achieved the highest usability (1.94 Overall PSSUQ) and adoption-intent (6.43/7).
- Abstract(参考訳): モバイルGUIエージェントは、アプリインターフェースと直接対話することで、スマートフォンタスクを自動化することができるが、実行中のユーザとのコミュニケーション方法はまだ未検討である。
既存のシステムは、透明性を最大化するがマルチタスクを阻止するフォアグラウンド実行と、マルチタスクをサポートするが視覚的認識がほとんどないバックグラウンド実行という2つの極端な方法に依存している。
反復的な形式的研究により、ユーザーはジャスト・イン・タイムの視覚的相互作用を持つハイブリッドモデルを好むが、最も効果的な視覚化のモダリティはタスクに依存することがわかった。
そこで我々は,人間とエージェントのインタラクションにおいて3つの視覚的モーダルを適応的に使用するモバイルGUIエージェントであるAgentLensを紹介した。
AgentLensは、適応的な通信アクションを備えた標準モバイルエージェントを拡張し、Virtual Displayを使用して、選択された視覚オーバーレイによるバックグラウンド実行を可能にする。
21人の被験者による対照研究において、AgentLensは85.7%の参加者に好まれ、最も高いユーザビリティ(1.94 総合PSSUQ)と6.43/7)を達成した。
関連論文リスト
- PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents [32.98769345205729]
PIRA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、連続的、弱い教師付き視覚入力で評価するための新しいベンチマークである。
本稿では,複数のタスクスレッドを管理し,誤った視覚的入力を処理する汎用MLLMを実現する,メモリ対応の状態追跡フレームワークであるPIRFベースラインを提案する。
論文 参考訳(メタデータ) (2026-03-09T06:41:32Z) - ReInAgent: A Context-Aware GUI Agent Enabling Human-in-the-Loop Mobile Task Navigation [26.254354188188177]
ReInAgentは、ヒューマン・イン・ザ・ループのモバイルタスクナビゲーションを可能にする、コンテキスト対応のマルチエージェントフレームワークである。
これは、明確で静的なタスク仮定に依存する既存のアプローチの制限を克服する。
真のユーザの好みとより緊密に一致した結果を生み出すのです。
論文 参考訳(メタデータ) (2025-10-09T09:22:05Z) - UIPro: Unleashing Superior Interaction Capability For GUI Agents [33.77980648230746]
人間のようなグラフィカルユーザインタフェース(GUI)を知覚し、操作する自律エージェントの構築は、人工知能の分野における長年のビジョンである。
視覚言語モデル(VLM)のマルチモーダル理解能力に基づくGUIエージェントの開発が試みられている。
本稿では,多プラットフォーム・マルチタスクGUIインタラクションデータを用いた新しい汎用GUIエージェントであるtextUIProを提案する。
論文 参考訳(メタデータ) (2025-09-22T03:04:53Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。
パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。
テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文 参考訳(メタデータ) (2025-06-06T17:29:49Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [57.98933460388985]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - MUG: Interactive Multimodal Grounding on User Interfaces [12.035123646959669]
本稿では,ユーザとエージェントがインタフェース画面上で協調作業を行うマルチモーダルグラウンドのための対話型タスクMUGを提案する。
ユーザがコマンドを与え、エージェントがコマンドに応答する。MUGはエージェントの応答を見る際に、エージェントがそのアクションを洗練または修正するための追加コマンドを与えるように、複数のラウンドのインタラクションを可能にする。
論文 参考訳(メタデータ) (2022-09-29T21:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。