論文の概要: Identifying User Goals from UI Trajectories
- arxiv url: http://arxiv.org/abs/2406.14314v3
- Date: Mon, 03 Mar 2025 15:47:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:36.827163
- Title: Identifying User Goals from UI Trajectories
- Title(参考訳): UIトラジェクトリからユーザ目標を識別する
- Authors: Omri Berkovitch, Sapir Caduri, Noam Kahlon, Anatoly Efros, Avi Caciularu, Ido Dagan,
- Abstract要約: 観測されたUI軌道からタスク目標を識別する手法を提案する。
また,2つの意図記述をパラフレーズとみなすことができるかどうかを評価するための新しい評価手法を提案する。
このタスクをベンチマークするために、人間と最先端モデル、特にGPT-4とGemini-1.5 Proのパフォーマンスを比較した。
- 参考スコア(独自算出の注目度): 19.492331502146886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying underlying user goals and intents has been recognized as valuable in various personalization-oriented settings, such as personalized agents, improved search responses, advertising, user analytics, and more. In this paper, we propose a new task goal identification from observed UI trajectories aiming to infer the user's detailed intentions when performing a task within UI environments. To support this task, we also introduce a novel evaluation methodology designed to assess whether two intent descriptions can be considered paraphrases within a specific UI environment. Furthermore, we demonstrate how this task can leverage datasets designed for the inverse problem of UI automation, utilizing Android and web datasets for our experiments. To benchmark this task, we compare the performance of humans and state-of-the-art models, specifically GPT-4 and Gemini-1.5 Pro, using our proposed metric. The results reveal that both Gemini and GPT underperform relative to human performance, underscoring the challenge of the proposed task and the significant room for improvement. This work highlights the importance of goal identification within UI trajectories, providing a foundation for further exploration and advancement in this area.
- Abstract(参考訳): パーソナライズされたエージェント,検索応答の改善,広告,ユーザ分析など,パーソナライズ指向のさまざまな設定において,基本的なユーザ目標と意図の識別が重要であると認識されている。
本稿では,UI環境内でタスクを実行する際のユーザの詳細な意図を推測することを目的とした,観測されたUIトラジェクトリからのタスク目標の同定を提案する。
このタスクを支援するために、特定のUI環境内で2つの意図記述をパラフレーズとみなすことができるかどうかを評価するための新しい評価手法も導入する。
さらに、このタスクがUI自動化の逆問題のために設計されたデータセットをどのように活用できるかを示し、AndroidとWebデータセットを実験に活用する。
この課題をベンチマークするために,提案手法を用いて,人間と最先端モデル,特にGPT-4とGemini-1.5 Proの性能を比較した。
その結果,Gemini と GPT の両者は人的パフォーマンスに比較して性能が劣り,提案課題の課題と改善の余地が強調された。
この研究は、UIトラジェクトリ内でのゴール識別の重要性を強調し、この分野のさらなる探索と進歩の基盤を提供する。
関連論文リスト
- Leveraging Multimodal LLM for Inspirational User Interface Search [12.470067381902972]
既存のAIベースのUI検索メソッドは、ターゲットユーザやアプリのムードといった重要なセマンティクスを見逃すことが多い。
我々はマルチモーダルな大言語モデル(MLLM)を用いて,モバイルUI画像から意味を抽出し,解釈した。
われわれのアプローチは既存のUI検索方法よりも優れており、UIデザイナはよりリッチでコンテキストに関連のある検索体験を提供する。
論文 参考訳(メタデータ) (2025-01-29T17:38:39Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Improving User Experience in Preference-Based Optimization of Reward Functions for Assistive Robots [5.523009758632668]
CMA-ES-IGは、ユーザの嗜好学習プロセスの経験を優先することを示す。
我々は,本アルゴリズムが,身体的,社会的なロボット作業にまたがる従来のアプローチよりも直感的であることを示す。
論文 参考訳(メタデータ) (2024-11-17T21:52:58Z) - TinyClick: Single-Turn Agent for Empowering GUI Automation [0.18846515534317265]
視覚言語モデル Florence-2-Base を用いたグラフィカルユーザインタフェース(GUI)インタラクションタスクのためのシングルターンエージェントを提案する。
エージェントの主なタスクは、ユーザのコマンドに対応するUI要素の画面座標を特定することである。
これはScreenspotとOmniActで強力なパフォーマンスを示し、コンパクトサイズは0.27Bパラメータと最小レイテンシを維持している。
論文 参考訳(メタデータ) (2024-10-09T12:06:43Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Location-Aware Visual Question Generation with Lightweight Models [21.278164764804536]
この研究は、位置認識型視覚質問生成(LocaVQG)という新しいタスクを導入している。
我々は、周囲の画像とGPS座標を用いて、そのような位置認識情報を表現している。
我々はLocaVQGタスクに対処し、携帯電話などのエッジデバイスに適合する軽量モデルを学ぶ。
論文 参考訳(メタデータ) (2023-10-23T17:33:31Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Rules Of Engagement: Levelling Up To Combat Unethical CUI Design [23.01296770233131]
いわゆる暗黒パターンの先行研究から得られた5次元のインタフェースを簡易に評価する手法を提案する。
提案手法はユーザに対して,評価されたインタフェースの操作性を表す数値スコアを提供する。
論文 参考訳(メタデータ) (2022-07-19T14:02:24Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z) - X2T: Training an X-to-Text Typing Interface with Online Learning from
User Feedback [83.95599156217945]
ユーザがキーボードを操作できないが、他の入力を供給できる、補助型タイピングアプリケーションに焦点を当てる。
標準メソッドは、ユーザ入力の固定データセット上でモデルをトレーニングし、そのミスから学ばない静的インターフェースをデプロイする。
このようなインターフェースが時間の経過とともに改善されるようなシンプルなアイデアを,ユーザによる最小限の努力で検討する。
論文 参考訳(メタデータ) (2022-03-04T00:07:20Z) - GANSlider: How Users Control Generative Models for Images using Multiple
Sliders with and without Feedforward Information [33.28541180149195]
フィードフォワード・ビジュアライゼーションのない複数のスライダが、ユーザが生成モデルの制御にどのように影響するかを検討する。
より多くのコントロールディメンション(スライダ)がタスクの難易度とユーザアクションを著しく増加させることがわかった。
可視化だけでは、ユーザが個々のコントロールディメンションを理解するのに十分とは限らない。
論文 参考訳(メタデータ) (2022-02-02T11:25:07Z) - RPT++: Customized Feature Representation for Siamese Visual Tracking [16.305972000224358]
視覚的トラッキングの性能向上は,有意な領域から抽出された特徴が,より認識可能な視覚的パターンを提供するため,限られていると我々は主張する。
タスク固有の視覚パターンを捉えるために,極性プーリングと極性プーリングという2つの特徴抽出器を提案する。
本稿では,タスク固有の特徴表現の有効性を,最近の進行トラッカーRTPに組み込むことで示す。
論文 参考訳(メタデータ) (2021-10-23T10:58:57Z) - Assisted Perception: Optimizing Observations to Communicate State [112.40598205054994]
我々は、ロボット遠隔操作や視覚障害のあるナビゲーションといったタスクにおいて、ユーザが世界の状態を見積もるのを支援することを目的としている。
ユーザによって処理された場合、より正確な内部状態推定につながる新しい観測結果を合成する。
論文 参考訳(メタデータ) (2020-08-06T19:08:05Z) - ObjectNav Revisited: On Evaluation of Embodied Agents Navigating to
Objects [119.46959413000594]
この文書は、ObjectNavのワーキンググループのコンセンサスレコメンデーションを要約します。
評価基準の微妙だが重要な詳細について推奨する。
CVPR 2020のEmbodied AIワークショップで実施された課題において、これらの推奨事項のインスタンス化について、詳細な説明を行う。
論文 参考訳(メタデータ) (2020-06-23T17:18:54Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。