論文の概要: GhostUI: Unveiling Hidden Interactions in Mobile UI
- arxiv url: http://arxiv.org/abs/2601.19258v1
- Date: Tue, 27 Jan 2026 06:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.208344
- Title: GhostUI: Unveiling Hidden Interactions in Mobile UI
- Title(参考訳): GhostUI: モバイルUIで隠れたインタラクションを公開する
- Authors: Minkyu Kweon, Seokhyeon Park, Soohyun Lee, You Been Lee, Jeongmin Rhee, Jinwook Seo,
- Abstract要約: GhostUIは、モバイルアプリケーションにおける隠れたインタラクションの検出を可能にするために設計された、新しいデータセットである。
GhostUIは、前後のスクリーンショット、シンプルなビュー階層、ジェスチャメタデータ、タスク記述を提供する。
- 参考スコア(独自算出の注目度): 12.023496228003337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern mobile applications rely on hidden interactions--gestures without visual cues like long presses and swipes--to provide functionality without cluttering interfaces. While experienced users may discover these interactions through prior use or onboarding tutorials, their implicit nature makes them difficult for most users to uncover. Similarly, mobile agents--systems designed to automate tasks on mobile user interfaces, powered by vision language models (VLMs)--struggle to detect veiled interactions or determine actions for completing tasks. To address this challenge, we present GhostUI, a new dataset designed to enable the detection of hidden interactions in mobile applications. GhostUI provides before-and-after screenshots, simplified view hierarchies, gesture metadata, and task descriptions, allowing VLMs to better recognize concealed gestures and anticipate post-interaction states. Quantitative evaluations with VLMs show that models fine-tuned on GhostUI outperform baseline VLMs, particularly in predicting hidden interactions and inferring post-interaction screens, underscoring GhostUI's potential as a foundation for advancing mobile task automation.
- Abstract(参考訳): 現代のモバイルアプリケーションは、隠れたインタラクション、つまり、長いプレスやスワイプのような視覚的な手がかりのないジェスチャーに依存しており、インターフェイスを散らかすことなく機能を提供する。
経験豊富なユーザは、事前の使用やチュートリアルのオンボーディングを通じてこれらのインタラクションを発見できるが、その暗黙的な性質は、ほとんどのユーザが発見を困難にしている。
同様に、モバイルエージェントは、視覚言語モデル(VLM)を利用して、モバイルユーザーインターフェイス上のタスクを自動化するように設計されている。
この課題に対処するために、モバイルアプリケーションにおける隠れインタラクションの検出を可能にするために設計された、新しいデータセットであるGhostUIを紹介します。
GhostUIは、プレ・アンド・アフタースクリーンショット、シンプルなビュー階層、ジェスチャメタデータ、タスク記述を提供する。
VLMによる定量的評価では、GhostUIがベースラインVLMよりも優れているモデル、特に隠れたインタラクションを予測し、インタラクション後の画面を推測することで、GhostUIがモバイルタスク自動化の基盤となる可能性を強調している。
関連論文リスト
- Generative Interfaces for Language Models [70.25765232527762]
ユーザインタフェース(UI)を積極的に生成することにより,大規模言語モデル(LLM)がユーザクエリに応答するパラダイムを提案する。
本フレームワークは,ユーザクエリをタスク固有のUIに変換するために,構造化インターフェース固有の表現と反復的洗練を活用している。
その結果、生成的インタフェースは人間の嗜好を最大72%改善し、会話的インタフェースよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-08-26T17:43:20Z) - Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - Creating General User Models from Computer Use [53.59999173952482]
本稿では,コンピュータとのインタラクションを観察することでユーザについて学習する汎用ユーザモデル(GUM)のアーキテクチャを提案する。
GUMは、ユーザ(例えばデバイスのスクリーンショット)の非構造化観察を入力として受け取り、ユーザの知識と好みをキャプチャする信頼度重み付け命題を構築する。
論文 参考訳(メタデータ) (2025-05-16T04:00:31Z) - Advancing Mobile UI Testing by Learning Screen Usage Semantics [0.42303492200814446]
本研究は,モバイルアプリの画面利用セマンティクスを学習することで,自動UIテスト技術の向上を目指す。
また、UI設計の問題を特定し緩和することで、モバイルアプリのインターフェイスのユーザビリティも向上する。
論文 参考訳(メタデータ) (2025-05-15T01:40:43Z) - MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding [37.15649883702765]
我々は,UI内理解とUI間理解を両立させる2つの事前学習段階を含むMobileVLMを提案する。
モバイル事前トレーニングデータの不足に対処するため、中国製の大規模なモバイルデータセットMobile3Mをスクラッチから構築しました。
実験の結果,MobileVLMはテストセットと公開モバイルベンチマークの両方で優れており,既存のVLMよりも優れていた。
論文 参考訳(メタデータ) (2024-09-23T08:47:54Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z) - Spotlight: Mobile UI Understanding using Vision-Language Models with a
Focus [9.401663915424008]
本稿では,UIのスクリーンショットと画面上の関心領域のみを入力とする視覚言語モデルを提案する。
実験の結果,本モデルではいくつかのUIタスクにおいてSoTA結果が得られ,従来手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-29T16:45:43Z) - Enabling Conversational Interaction with Mobile UI using Large Language
Models [15.907868408556885]
自然言語で多様なUIタスクを実行するには、開発者は通常、特定のタスクごとに別々のデータセットとモデルを作成する必要がある。
本稿では,単一言語モデルを用いて,モバイルUIとの多目的対話を実現することの実現可能性について検討する。
論文 参考訳(メタデータ) (2022-09-18T20:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。