論文の概要: Morae: Proactively Pausing UI Agents for User Choices
- arxiv url: http://arxiv.org/abs/2508.21456v1
- Date: Fri, 29 Aug 2025 09:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.993073
- Title: Morae: Proactively Pausing UI Agents for User Choices
- Title(参考訳): Morae: ユーザ選択に積極的にUIエージェントを使用
- Authors: Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel,
- Abstract要約: ユーザインターフェース(UI)エージェントは、ブラインドおよびロービジョン(BLV)ユーザに対して、アクセス不能または複雑なUIを簡単にアクセスできるようにすることを約束する。
現在のUIエージェントは、ユーザーが重要な選択をしたり、重要なコンテキスト情報を知らせることなく、エンド・ツー・エンドでタスクを実行するのが一般的である。
タスク実行中に自動的に決定ポイントを識別し、ユーザが選択できるように停止するUIエージェントであるMoraeを紹介する。
- 参考スコア(独自算出の注目度): 24.953974088995395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User interface (UI) agents promise to make inaccessible or complex UIs easier to access for blind and low-vision (BLV) users. However, current UI agents typically perform tasks end-to-end without involving users in critical choices or making them aware of important contextual information, thus reducing user agency. For example, in our field study, a BLV participant asked to buy the cheapest available sparkling water, and the agent automatically chose one from several equally priced options, without mentioning alternative products with different flavors or better ratings. To address this problem, we introduce Morae, a UI agent that automatically identifies decision points during task execution and pauses so that users can make choices. Morae uses large multimodal models to interpret user queries alongside UI code and screenshots, and prompt users for clarification when there is a choice to be made. In a study over real-world web tasks with BLV participants, Morae helped users complete more tasks and select options that better matched their preferences, as compared to baseline agents, including OpenAI Operator. More broadly, this work exemplifies a mixed-initiative approach in which users benefit from the automation of UI agents while being able to express their preferences.
- Abstract(参考訳): ユーザインターフェース(UI)エージェントは、ブラインドおよびロービジョン(BLV)ユーザに対して、アクセス不能または複雑なUIを簡単にアクセスできるようにすることを約束する。
しかし、現在のUIエージェントは、ユーザーが重要な選択に関わったり、重要なコンテキスト情報を認識させることなく、エンド・ツー・エンドでタスクを実行するため、ユーザーエージェンシーは減少する。
例えば、このフィールドスタディでは、BLV参加者が最も安いスパークリングウォーターの購入を依頼し、エージェントは異なるフレーバーやより良い評価の代替製品に言及することなく、同じ価格の選択肢の中から自動的に1つを選択しました。
この問題に対処するために,タスク実行中に自動的に決定ポイントを識別し,ユーザが選択できるように停止するUIエージェントであるMoraeを紹介する。
Moraeは大規模なマルチモーダルモデルを使用して、UIコードとスクリーンショットと共にユーザクエリを解釈し、選択すべき選択肢がある場合、ユーザに明確化を促す。
BLV参加者による現実世界のWebタスクに関する調査で、Morae氏は、OpenAI Operatorなどのベースラインエージェントと比較して、より多くのタスクを完了し、好みに合った選択肢を選択するのを支援した。
より広範に、この作業はUIエージェントの自動化の恩恵を受けると同時に、好みを表現できる、混合開始型アプローチを実証している。
関連論文リスト
- UserBench: An Interactive Gym Environment for User-Centric Agents [110.77212949007958]
LLM(Large Language Models)ベースのエージェントは、推論とツールの使用において、目覚ましい進歩を遂げてきたが、ユーザと積極的にコラボレーションする能力はまだ未熟である。
マルチターン、選好駆動インタラクションにおいてエージェントを評価するために設計されたユーザ中心のベンチマークであるUserBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-29T17:34:12Z) - Creating General User Models from Computer Use [62.91116265732001]
本稿では,コンピュータとのインタラクションを観察することでユーザについて学習する汎用ユーザモデル(GUM)のアーキテクチャを提案する。
GUMは、ユーザ(例えばデバイスのスクリーンショット)の非構造化観察を入力として受け取り、ユーザの知識と好みをキャプチャする信頼度重み付け命題を構築する。
論文 参考訳(メタデータ) (2025-05-16T04:00:31Z) - SmartAgent: Chain-of-User-Thought for Embodied Personalized Agent in Cyber World [50.937342998351426]
COUT(Chain-of-User-Thought)は、新しい推論パラダイムである。
我々は、サイバー環境を認識し、パーソナライズされた要求を推論するエージェントフレームワークであるSmartAgentを紹介する。
我々の研究は、まずCOUTプロセスを定式化し、パーソナライズされたエージェント学習を具体化するための予備的な試みとして役立ちます。
論文 参考訳(メタデータ) (2024-12-10T12:40:35Z) - Aligning LLM Agents by Learning Latent Preference from User Edits [23.235995078727658]
本研究では,エージェントの出力に対するユーザ編集に基づいて,言語エージェントの対話的学習について検討する。
本稿では,履歴編集データに基づいてユーザの潜伏傾向を推定する学習フレームワーク PreLUDE を提案する。
本稿では,要約とメール作成という2つの対話型環境を導入し,GPT-4シミュレーションユーザを用いて評価を行う。
論文 参考訳(メタデータ) (2024-04-23T17:57:47Z) - One Agent Too Many: User Perspectives on Approaches to Multi-agent
Conversational AI [10.825570464035872]
システムユーザビリティとシステムパフォーマンスの両方において,エージェントオーケストレーションを抽象化する上で,ユーザにとって重要な選択肢があることが示される。
人間の選択した回答の1%以内に評価された質の高い応答を提供できることを実証する。
論文 参考訳(メタデータ) (2024-01-13T17:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。