論文の概要: Identifying User Goals from UI Trajectories
- arxiv url: http://arxiv.org/abs/2406.14314v2
- Date: Sun, 30 Jun 2024 12:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 13:01:27.009011
- Title: Identifying User Goals from UI Trajectories
- Title(参考訳): UIトラジェクトリからユーザ目標を識別する
- Authors: Omri Berkovitch, Sapir Caduri, Noam Kahlon, Anatoly Efros, Avi Caciularu, Ido Dagan,
- Abstract要約: 本稿では,観測されたUI軌道から目標を識別するタスクを紹介する。
2つのタスク記述が特定のUI環境内でパラフレーズ化されているかどうかを評価するための新しい評価基準を提案する。
計測値とこれらのデータセットを用いて、人間のパフォーマンスと最先端モデルの比較実験を行った。
- 参考スコア(独自算出の注目度): 19.492331502146886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents that interact with graphical user interfaces (GUIs) hold significant potential for enhancing user experiences. To further improve these experiences, agents need to be personalized and proactive. By effectively comprehending user intentions through their actions and interactions with GUIs, agents will be better positioned to achieve these goals. This paper introduces the task of goal identification from observed UI trajectories, aiming to infer the user's intended task based on their GUI interactions. We propose a novel evaluation metric to assess whether two task descriptions are paraphrases within a specific UI environment. By Leveraging the inverse relation with the UI automation task, we utilized the Android-In-The-Wild and Mind2Web datasets for our experiments. Using our metric and these datasets, we conducted several experiments comparing the performance of humans and state-of-the-art models, specifically GPT-4 and Gemini-1.5 Pro. Our results show that Gemini performs better than GPT but still underperforms compared to humans, indicating significant room for improvement.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)と対話する自律エージェントは、ユーザエクスペリエンスを向上させる大きな可能性を秘めている。
これらの体験をさらに改善するためには、エージェントをパーソナライズし、積極的に行う必要がある。
アクションやGUIとのインタラクションを通じてユーザの意図を効果的に理解することで、エージェントはこれらの目標を達成するのに適しているでしょう。
本稿では,GUIのインタラクションに基づいてユーザの意図したタスクを推測することを目的として,観測されたUIトラジェクトリから目標を識別するタスクを提案する。
特定のUI環境における2つのタスク記述がパラフレーズであるかどうかを評価するための新しい評価基準を提案する。
UI自動化タスクとの逆関係を活用することで、Android-In-The-WildデータセットとMind2Webデータセットを実験に利用しました。
測定値とこれらのデータセットを用いて,人間と最先端モデル,特に GPT-4 と Gemini-1.5 Pro を比較した実験を行った。
以上の結果から,GeminiはGPTよりも優れた性能を示したが,人間に比べてまだ性能が劣っていることが示唆された。
関連論文リスト
- UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z) - GANSlider: How Users Control Generative Models for Images using Multiple
Sliders with and without Feedforward Information [33.28541180149195]
フィードフォワード・ビジュアライゼーションのない複数のスライダが、ユーザが生成モデルの制御にどのように影響するかを検討する。
より多くのコントロールディメンション(スライダ)がタスクの難易度とユーザアクションを著しく増加させることがわかった。
可視化だけでは、ユーザが個々のコントロールディメンションを理解するのに十分とは限らない。
論文 参考訳(メタデータ) (2022-02-02T11:25:07Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。