論文の概要: UI-JEPA: Towards Active Perception of User Intent through Onscreen User Activity
- arxiv url: http://arxiv.org/abs/2409.04081v3
- Date: Wed, 2 Oct 2024 05:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 23:11:54.746788
- Title: UI-JEPA: Towards Active Perception of User Intent through Onscreen User Activity
- Title(参考訳): UI-JEPA: 画面上でのユーザアクティビティによるユーザインテントのアクティブな認識に向けて
- Authors: Yicheng Fu, Raviteja Anantha, Prabal Vashisht, Jianpeng Cheng, Etai Littwin,
- Abstract要約: UI-JEPAは、ラベルのないデータから抽象的なUI埋め込みを学ぶためにマスキング戦略を使用する新しいフレームワークである。
Intent in the Wild" (IIW) と "Intent in the Tame" (IIT) という2つの新しいマルチモーダルデータセットを導入する。
IIWは219カテゴリーの1.7Kビデオで構成され、IITは10カテゴリの914ビデオを含んでいる。
- 参考スコア(独自算出の注目度): 7.299239909796724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating user intent from a sequence of user interface (UI) actions is a core challenge in comprehensive UI understanding. Recent advancements in multimodal large language models (MLLMs) have led to substantial progress in this area, but their demands for extensive model parameters, computing power, and high latency makes them impractical for scenarios requiring lightweight, on-device solutions with low latency or heightened privacy. Additionally, the lack of high-quality datasets has hindered the development of such lightweight models. To address these challenges, we propose UI-JEPA, a novel framework that employs masking strategies to learn abstract UI embeddings from unlabeled data through self-supervised learning, combined with an LLM decoder fine-tuned for user intent prediction. We also introduce two new UI-grounded multimodal datasets, "Intent in the Wild" (IIW) and "Intent in the Tame" (IIT), designed for few-shot and zero-shot UI understanding tasks. IIW consists of 1.7K videos across 219 intent categories, while IIT contains 914 videos across 10 categories. We establish the first baselines for these datasets, showing that representations learned using a JEPA-style objective, combined with an LLM decoder, can achieve user intent predictions that match the performance of state-of-the-art large MLLMs, but with significantly reduced annotation and deployment resources. Measured by intent similarity scores, UI-JEPA outperforms GPT-4 Turbo and Claude 3.5 Sonnet by 10.0% and 7.2% respectively, averaged across two datasets. Notably, UI-JEPA accomplishes the performance with a 50.5x reduction in computational cost and a 6.6x improvement in latency in the IIW dataset. These results underscore the effectiveness of UI-JEPA, highlighting its potential for lightweight, high-performance UI understanding.
- Abstract(参考訳): ユーザインターフェース(UI)アクションのシーケンスからユーザ意図を生成することは、包括的なUI理解における中核的な課題である。
MLLM(Multimodal large language model)の最近の進歩は、この分野でかなりの進歩をもたらしたが、広範囲なモデルパラメータ、計算能力、高レイテンシ要求は、軽量でオンデバイスなソリューションが必要で、レイテンシーが低く、プライバシーが高くなるシナリオでは実用的ではない。
さらに、高品質なデータセットの欠如により、このような軽量モデルの開発が妨げられている。
これらの課題に対処するために,UI-JEPAを提案する。UI-JEPAは,自己教師付き学習を通じてラベル付きデータから抽象的なUI埋め込みを学習するためのマスキング戦略を利用する新しいフレームワークであり,ユーザ意図の予測のために微調整されたLLMデコーダと組み合わせる。
Intent in the Wild" (IIW) と "Intent in the Tame" (IIT) の2つの新しいUIグラウンド型マルチモーダルデータセットも導入した。
IIWは219カテゴリーの1.7Kビデオで構成され、IITは10カテゴリの914ビデオを含んでいる。
我々はこれらのデータセットの最初のベースラインを確立し、JEPAスタイルの目的とLLMデコーダを組み合わせて学習した表現が、最先端の大規模MLLMのパフォーマンスに匹敵するユーザ意図の予測を達成できることを示した。
UI-JEPAは意図的類似度スコアによって測定され、GPT-4 TurboとClaude 3.5 Sonnetをそれぞれ10.0%と7.2%上回り、2つのデータセットで平均した。
特に、UI-JEPAは、計算コストを0.5倍削減し、IIWデータセットのレイテンシを6.6倍改善することで、パフォーマンスを達成する。
これらの結果はUI-JEPAの有効性を強調し、軽量で高性能なUI理解の可能性を強調している。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Intent Detection in the Age of LLMs [3.755082744150185]
インテント検出はタスク指向対話システム(TODS)の重要な構成要素である
従来のアプローチは、計算効率の良い教師付き文変換器エンコーダモデルに依存していた。
固有の世界知識を持つ生成的大言語モデル(LLM)の出現は、これらの課題に対処する新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-02T15:01:55Z) - VISION2UI: A Real-World Dataset with Layout for Code Generation from UI Designs [29.80918775422563]
実世界のシナリオから抽出し,包括的レイアウト情報を付加した新しいデータセットVISION2UIを提案する。
このデータセットは、オープンソースのCommon Crawlデータセットの収集、クリーニング、フィルタリングを含む一連の操作によって生成される。
最終的にこのプロセスは、デザインビジョンとUIコードを含む2,000の並列サンプルからなるデータセットを生成する。
論文 参考訳(メタデータ) (2024-04-09T15:05:48Z) - End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames [55.72994484532856]
時間的行動検出(TAD)は、エンドツーエンドのトレーニングで大幅に改善された。
メモリボトルネックのため、限られたスケールと限られたデータ量を持つモデルだけがエンドツーエンドのトレーニングを受けることができる。
エンド・ツー・エンドトレーニングのメモリ消費を削減し,10億のパラメータと入力映像を1,536フレームにスケールアップする。
論文 参考訳(メタデータ) (2023-11-28T21:31:04Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - AdaMTL: Adaptive Input-dependent Inference for Efficient Multi-Task
Learning [1.4963011898406864]
マルチタスク学習モデルのためのタスク認識推論ポリシーを学習する適応型フレームワークであるAdaMTLを紹介する。
AdaMTLは計算複雑性を43%削減し、シングルタスクモデルと比較して精度を1.32%改善した。
Vuzix M4000 スマートグラス上に展開すると、AdaMTL は推論遅延とエネルギー消費をそれぞれ 21.8% と 37.5% に削減する。
論文 参考訳(メタデータ) (2023-04-17T20:17:44Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z) - LiteMuL: A Lightweight On-Device Sequence Tagger using Multi-task
Learning [1.3192560874022086]
LiteMuLは、マルチタスク学習アプローチを使用してユーザーの会話を効率的に処理できる軽量のオンデバイスシーケンスタグガーです。
我々のモデルは、NERやPOSタスクの他のMTLアプローチと競合する一方で、メモリフットプリントも低い。
論文 参考訳(メタデータ) (2020-12-15T19:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。