論文の概要: Identifying User Goals from UI Trajectories
- arxiv url: http://arxiv.org/abs/2406.14314v1
- Date: Thu, 20 Jun 2024 13:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 13:32:31.210567
- Title: Identifying User Goals from UI Trajectories
- Title(参考訳): UIトラジェクトリからユーザ目標を識別する
- Authors: Omri Berkovitch, Sapir Caduri, Noam Kahlon, Anatoly Efros, Avi Caciularu, Ido Dagan,
- Abstract要約: 本稿では,観測されたUI軌道から目標を識別するタスクを紹介する。
2つのタスク記述が特定のUI環境内でパラフレーズ化されているかどうかを評価するための新しい評価基準を提案する。
計測値とこれらのデータセットを用いて、人間のパフォーマンスと最先端モデルの比較実験を行った。
- 参考スコア(独自算出の注目度): 19.492331502146886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents that interact with graphical user interfaces (GUIs) hold significant potential for enhancing user experiences. To further improve these experiences, agents need to be personalized and proactive. By effectively comprehending user intentions through their actions and interactions with GUIs, agents will be better positioned to achieve these goals. This paper introduces the task of goal identification from observed UI trajectories, aiming to infer the user's intended task based on their GUI interactions. We propose a novel evaluation metric to assess whether two task descriptions are paraphrases within a specific UI environment. By Leveraging the inverse relation with the UI automation task, we utilized the Android-In-The-Wild and Mind2Web datasets for our experiments. Using our metric and these datasets, we conducted several experiments comparing the performance of humans and state-of-the-art models, specifically GPT-4 and Gemini-1.5 Pro. Our results show that Gemini performs better than GPT but still underperforms compared to humans, indicating significant room for improvement.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)と対話する自律エージェントは、ユーザエクスペリエンスを向上させる大きな可能性を秘めている。
これらの体験をさらに改善するためには、エージェントをパーソナライズし、積極的に行う必要がある。
アクションやGUIとのインタラクションを通じてユーザの意図を効果的に理解することで、エージェントはこれらの目標を達成するのに適しているでしょう。
本稿では,GUIのインタラクションに基づいてユーザの意図したタスクを推測することを目的として,観測されたUIトラジェクトリから目標を識別するタスクを提案する。
特定のUI環境における2つのタスク記述がパラフレーズであるかどうかを評価するための新しい評価基準を提案する。
UI自動化タスクとの逆関係を活用することで、Android-In-The-WildデータセットとMind2Webデータセットを実験に利用しました。
測定値とこれらのデータセットを用いて,人間と最先端モデル,特に GPT-4 と Gemini-1.5 Pro を比較した実験を行った。
以上の結果から,GeminiはGPTよりも優れた性能を示したが,人間に比べてまだ性能が劣っていることが示唆された。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Improving User Experience in Preference-Based Optimization of Reward Functions for Assistive Robots [5.523009758632668]
CMA-ES-IGは、ユーザの嗜好学習プロセスの経験を優先することを示す。
我々は,本アルゴリズムが,身体的,社会的なロボット作業にまたがる従来のアプローチよりも直感的であることを示す。
論文 参考訳(メタデータ) (2024-11-17T21:52:58Z) - TinyClick: Single-Turn Agent for Empowering GUI Automation [0.18846515534317265]
視覚言語モデル Florence-2-Base を用いたグラフィカルユーザインタフェース(GUI)インタラクションタスクのためのシングルターンエージェントを提案する。
エージェントの主なタスクは、ユーザのコマンドに対応するUI要素の画面座標を特定することである。
これはScreenspotとOmniActで強力なパフォーマンスを示し、コンパクトサイズは0.27Bパラメータと最小レイテンシを維持している。
論文 参考訳(メタデータ) (2024-10-09T12:06:43Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z) - X2T: Training an X-to-Text Typing Interface with Online Learning from
User Feedback [83.95599156217945]
ユーザがキーボードを操作できないが、他の入力を供給できる、補助型タイピングアプリケーションに焦点を当てる。
標準メソッドは、ユーザ入力の固定データセット上でモデルをトレーニングし、そのミスから学ばない静的インターフェースをデプロイする。
このようなインターフェースが時間の経過とともに改善されるようなシンプルなアイデアを,ユーザによる最小限の努力で検討する。
論文 参考訳(メタデータ) (2022-03-04T00:07:20Z) - GANSlider: How Users Control Generative Models for Images using Multiple
Sliders with and without Feedforward Information [33.28541180149195]
フィードフォワード・ビジュアライゼーションのない複数のスライダが、ユーザが生成モデルの制御にどのように影響するかを検討する。
より多くのコントロールディメンション(スライダ)がタスクの難易度とユーザアクションを著しく増加させることがわかった。
可視化だけでは、ユーザが個々のコントロールディメンションを理解するのに十分とは限らない。
論文 参考訳(メタデータ) (2022-02-02T11:25:07Z) - Assisted Perception: Optimizing Observations to Communicate State [112.40598205054994]
我々は、ロボット遠隔操作や視覚障害のあるナビゲーションといったタスクにおいて、ユーザが世界の状態を見積もるのを支援することを目的としている。
ユーザによって処理された場合、より正確な内部状態推定につながる新しい観測結果を合成する。
論文 参考訳(メタデータ) (2020-08-06T19:08:05Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。