論文の概要: NiCro: Purely Vision-based, Non-intrusive Cross-Device and
Cross-Platform GUI Testing
- arxiv url: http://arxiv.org/abs/2305.14611v1
- Date: Wed, 24 May 2023 01:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-24 05:57:22.561984
- Title: NiCro: Purely Vision-based, Non-intrusive Cross-Device and
Cross-Platform GUI Testing
- Title(参考訳): NiCro: 純粋なビジョンベース、非侵入型クロスデバイス、クロスプラットフォームGUIテスト
- Authors: Mulong Xie, Jiaming Ye, Zhenchang Xing, Lei Ma
- Abstract要約: 我々は,非侵入型クロスデバイス・クロスプラットフォームシステムNiCroを提案する。
NiCroは最先端のGUIウィジェット検出器を使用してGUIイメージからウィジェットを検出し、さまざまなデバイスにまたがるウィジェットにマッチする一連の包括的な情報を分析する。
システムレベルでは、NiCroは仮想デバイスファームとロボットアームシステムと対話して、非侵襲的にクロスデバイスでクロスプラットフォームなテストを実行することができる。
- 参考スコア(独自算出の注目度): 19.462053492572142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To ensure app compatibility and smoothness of user experience across diverse
devices and platforms, developers have to perform cross-device, cross-platform
testing of their apps, which is laborious. There comes a recently increasing
trend of using a record and replay approach to facilitate the testing process.
However, the graphic user interface (GUI) of an app running on different
devices and platforms differs dramatically. This complicates the record and
replay process as the presence, appearance and layout of the GUI widgets in the
recording phase and replaying phase can be inconsistent. Existing techniques
resort to instrumenting into the underlying system to obtain the app metadata
for widget identification and matching between various devices. But such
intrusive practices are limited by the accessibility and accuracy of the
metadata on different platforms. On the other hand, several recent works
attempt to derive the GUI information by analyzing the GUI image. Nevertheless,
their performance is curbed by the applied preliminary visual approaches and
the failure to consider the divergence of the same GUI displayed on different
devices. To address the challenge, we propose a non-intrusive cross-device and
cross-platform system NiCro. NiCro utilizes the state-of-the-art GUI widget
detector to detect widgets from GUI images and then analyses a set of
comprehensive information to match the widgets across diverse devices. At the
system level, NiCro can interact with a virtual device farm and a robotic arm
system to perform cross-device, cross-platform testing non-intrusively. We
first evaluated NiCro by comparing its multi-modal widget and GUI matching
approach with 4 commonly used matching techniques. Then, we further examined
its overall performance on 8 various devices, using it to record and replay 107
test cases of 28 popular apps and the home page to show its effectiveness.
- Abstract(参考訳): さまざまなデバイスやプラットフォーム間のアプリの互換性とユーザエクスペリエンスの円滑性を確保するためには,アプリケーションのクロスデバイスでクロスプラットフォームなテストを行う必要がある。
最近、テストプロセスを容易にするためにレコードと再生のアプローチを使う傾向が強まっている。
しかし、異なるデバイスやプラットフォームで動作するアプリのグラフィックユーザインターフェース(GUI)は、劇的に異なる。
これにより、記録フェーズ及び再生フェーズにおけるguiウィジェットの存在、出現及びレイアウトが矛盾するので、記録及び再生プロセスが複雑になる。
既存の手法では、ウィジェットの識別と様々なデバイス間のマッチングのためのアプリメタデータを取得するために、基盤となるシステムにインストルメンテーションを取り入れている。
しかし、このような侵入的なプラクティスは、異なるプラットフォーム上のメタデータのアクセシビリティと正確性によって制限されます。
一方,GUI画像の解析によりGUI情報を導出しようとする最近の試みもいくつかある。
それでも、それらの性能は、適用された予備的な視覚的アプローチと、異なるデバイスに表示される同じGUIのばらつきを考慮できないことで抑制されている。
そこで本研究では,非侵入型クロスプラットフォームシステムNiCroを提案する。
NiCroは最先端のGUIウィジェット検出器を使用してGUIイメージからウィジェットを検出し、さまざまなデバイス間でウィジェットにマッチする包括的な情報の集合を分析する。
システムレベルでは、NiCroは仮想デバイスファームとロボットアームシステムと対話して、非侵襲的にクロスデバイスでクロスプラットフォームのテストを実行することができる。
NiCroのマルチモーダルウィジェットとGUIマッチングを4つの一般的なマッチング手法と比較して評価を行った。
次に,28種類の人気アプリの107種類のテストケースとホームページを記録・再生し,その効果を示すために,8種類のデバイスでの性能をさらに検証した。
関連論文リスト
- Explorer: Robust Collection of Interactable GUI Elements [0.0]
私たちは、あるユーザに対して、あるアプリやデジタル環境を通じて、関連するUI要素が正しく検出されていることを、いかに信頼する必要があるかを示します。
Proposed Explorerシステムは、トレーニングプロセスがアプリケーションのライブバージョンにアクセス可能なオンスクリーンボタンとテキスト入力フィールドを検出することに焦点を当てている。
Explorerはまた、インタラクティブなユーザーセッションの記録を可能にし、その後のセッションがどのように重複し、時として同様の状態に戻るかのマッピングを可能にする。
論文 参考訳(メタデータ) (2025-04-12T22:02:29Z) - GUIWatcher: Automatically Detecting GUI Lags by Analyzing Mobile Application Screencasts [9.997570370503617]
グラフィカルユーザインタフェース(GUI)はモバイルアプリケーションにおいて中心的な役割を果たし、ユーザビリティとユーザ満足度に直接影響を与えます。
遅延や応答性の低いGUIパフォーマンスは、ネガティブなユーザエクスペリエンスとモバイルアプリケーション(アプリ)レーティングの低下につながる可能性がある。
GUIWatcherは,モバイルアプリのテスト中に記録されたスクリーンキャストを分析し,GUIラグを検出するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2025-02-06T16:43:51Z) - GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。
NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文 参考訳(メタデータ) (2025-01-23T18:16:21Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。
また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。
UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-15T22:17:30Z) - Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。
Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。
我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文 参考訳(メタデータ) (2024-12-12T15:29:36Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - Vision-driven Automated Mobile GUI Testing via Multimodal Large Language Model [27.97964877860671]
本稿では,マルチモーダル大規模言語モデルを用いて,非クラッシュな機能的バグを検出する視覚駆動型GUIテスト手法を提案する。
GUIテキスト情報を抽出し、スクリーンショットと整列して視覚プロンプトを形成することで、MLLMはGUIコンテキストを理解することができる。
VisionDroidは、Google Playの29の新しいバグを特定し、そのうち19が確認され、修正されている。
論文 参考訳(メタデータ) (2024-07-03T11:58:09Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices [61.48043339441149]
GUI Odysseyは6つのモバイルデバイスから7,735エピソードで構成され、6種類のクロスアプリタスク、201のアプリ、1.4Kのアプリコンボで構成されている。
履歴再サンプリングモジュールを用いたQwen-VLモデルの微調整により,マルチモーダルなクロスアプリナビゲーションエージェントであるOdysseyAgentを開発した。
論文 参考訳(メタデータ) (2024-06-12T17:44:26Z) - Practical Non-Intrusive GUI Exploration Testing with Visual-based
Robotic Arms [14.3266199543725]
視覚ロボットアームを用いた実用的な非侵襲的GUIテストフレームワークを提案する。
RoboTestは、新しいGUI画面とウィジェット検出アルゴリズムを統合し、異なるサイズのスクリーンに適応する。
20のモバイルアプリでRoboTestを評価し,組込みシステムのケーススタディを行った。
論文 参考訳(メタデータ) (2023-12-17T09:05:39Z) - Vision-Based Mobile App GUI Testing: A Survey [29.042723121518765]
ビジョンベースのモバイルアプリ GUI テストアプローチは、コンピュータビジョン技術の開発とともに現れた。
本稿では,271論文における最新技術に関する包括的調査を行い,92論文は視覚に基づく研究である。
論文 参考訳(メタデータ) (2023-10-20T14:04:04Z) - Scene-Driven Exploration and GUI Modeling for Android Apps [13.647261033241364]
ATG,WTG,STGなどのアプリケーションに対する抽出された遷移グラフは,遷移カバレッジが低く,粒度が粗い。
動的にGUIシーンを抽出するシーン駆動探索手法であるSceneDroidを提案する。
既存のGUIモデリングツールと比較すると、SceneDroidは168.74%のトランジションペアと162.42%のシーン抽出で改善されている。
論文 参考訳(メタデータ) (2023-08-20T10:54:25Z) - Effective, Platform-Independent GUI Testing via Image Embedding and Reinforcement Learning [15.458315113767686]
アプリケーションテストに有効なプラットフォームに依存しないアプローチであるPIRLTestを提案する。
コンピュータビジョンと強化学習技術を利用して、新しいシナジスティックな方法で自動テストを行う。
PILTestは、Q-networkを使用して特定の状態-アクションペアの値を見積もる好奇心駆動型戦略のガイダンスで、アプリを探索する。
論文 参考訳(メタデータ) (2022-08-19T01:51:16Z) - SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。
最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。
本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文 参考訳(メタデータ) (2021-06-21T10:57:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。